理想VLA司机大模型,李想揭秘从动物进化到人类的跃迁奇迹
李想提到理想VLA司机大模型代表着从动物进化到人类的理念,该模型旨在通过深度学习和人工智能技术的结合,实现更高级别的自动驾驶能力,这一模型不仅展示了技术进步,还体现了对人类驾驶理念的追求和革新,通过模拟人类的决策和反应机制,该模型助力自动驾驶技术从简单的机械模仿进化到更智能、更安全的驾驶水平。
在理想汽车推出的“理想AI Talk第二季——理想VLA司机大模型:从动物进化到人类”活动中,理想汽车董事长兼CEO李想深入探讨了人工智能的最新发展,特别是VLA司机大模型的应用、训练方法以及面临的挑战,他强调了人工智能在成为生产工具前的三个发展阶段,并详细解释了VLA模型如何从预训练到后训练再到强化训练的过程,以下是经过修饰和补充后的内容:
李想将AI工具分为三个层级:信息工具、辅助工具和生产工具,大多数人主要将AI作为信息工具使用,但这一层级常伴随着大量无效信息、结果和结论,虽然具有一定的参考价值,但其效率有限。
当AI进化为辅助工具时,如现在的辅助驾驶,它的效率得到了提升,但仍需人类的参与,李想指出,未来AI将朝着成为生产工具的方向发展,能够独立完成专业任务,并显著提高效率与质量,他强调:“判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具,只有当人工智能变成生产工具,才是其真正爆发的时刻。”
在自动驾驶领域,李想表示目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而理想汽车的VLA(Vision-Language-Action Model,视觉语言行动模型)则代表了让AI成为司机、成为交通领域的专业生产工具的前瞻性探索。
VLA的实现并非一蹴而就,而是一个经历三个阶段进化的过程,对应着理想汽车辅助驾驶的昨天、今天和明天,第一阶段是依赖规则算法和高精地图的辅助驾驶,类似于“昆虫动物智能”,第二阶段则借助端到端模型和VLM(Vision Language Model,视觉语言模型)的辅助驾驶,接近“哺乳动物智能”,在这一阶段,虽然VLM在交通领域的能力有限,但为VLA的研究奠定了基础。
为了进入“人类智能”的阶段,理想汽车自2024年开始开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础,第三阶段的VLA通过3D和2D视觉的组合,能够完整地看到物理世界,并具备完整的脑系统,包括语言、CoT(Chain of Thought,思维链)推理能力,这样,VLA不仅能看,也能理解并真正执行行动,更符合人类的运作方式。
李想还深入分享了VLA的训练细节和运作原理,VLA的训练过程分为预训练、后训练和强化训练三个环节,预训练相当于让AI学习物理世界和交通领域的常识;后训练则加入Action(动作)数据,使VL基座变为VLA司机大模型;强化训练则旨在让这一模型更加安全、舒适,与人类价值观对齐,甚至超越人类驾驶水平。
值得一提的是,VLA司机大模型以“司机Agent(智能体)”的形态呈现,用户可通过自然语言与司机Agent沟通,这意味着用户跟人类司机交流时怎么说,就如何跟司机Agent沟通,简单的指令由端侧的VLA直接处理,复杂的指令则由云端的VL基座模型先解析再交由VLA处理。
李想强调,理想汽车在人工智能领域的探索处于无人区,无论是Deepseek、OpenAI还是谷歌、Waymo都没有走过这条路,理想汽车以前走的是汽车的无人区,未来走的是人工智能的无人区,他充满信心地表示:“我们的目标是创造一个真正智能的驾驶伙伴。”
通过李想的分享,我们得以一窥理想汽车在人工智能领域的雄心壮志和技术实力,随着VLA司机大模型的不断发展与完善,未来自动驾驶领域将迎来更加广阔的发展前景。