2025年5月7日,理想汽车举办理想AI Talk第二季,董事长兼CEO李想深入剖析了人工智能在汽车领域的演进路径,详细介绍了VLA司机大模型的技术原理、训练方法和应用前景,并分享了对创业与个人成长的独特见解。本次活动揭示了理想汽车在智能驾驶领域的最新技术布局和战略方向,展现了其从辅助驾驶向真正自动驾驶跃迁的技术路径。



对于理想汽车而言,VLA(Vision-Language-Action Model,视觉语言行动模型)司机大模型正是这样一个交通领域的专业生产工具,其目标是成为像人类司机一样工作的AI驾驶员。VLA司机大模型的训练过程精妙地模拟了人类学习驾驶的历程,分为预训练、后训练和强化训练三个核心环节。



预训练阶段相当于人类学习物理世界和交通领域的基础知识,通过海量高清2D和3D视觉数据、交通相关语料以及视觉语言联合数据,训练出强大的云端VL基座模型,并通过蒸馏技术转化为车端高效运行的端侧模型。

后训练阶段类似人类在驾校系统学习驾驶技能,随着Action(动作)数据的加入——即对周围环境和自车驾驶行为的编码,VL基座模型升级为VLA司机大模型。得益于短链条的CoT思维链和Diffusion扩散模型对他车轨迹与环境的精准预测,VLA具备了实时处理复杂交通环境的博弈能力。

强化训练阶段则对应人类在实际道路上练习驾驶的过程,通过RLHF(基于人类反馈的强化学习)完成安全对齐,使模型遵守交通规则并适应中国用户的驾驶习惯;同时将纯强化学习模型置于世界模型中训练,全面提升驾驶舒适性,避免碰撞事故,确保交通规则的严格执行。



在产品形态上,VLA司机大模型以"司机Agent"的方式呈现给用户,支持通过自然语言交流——"跟人怎么说,就跟司机Agent怎么说"。系统架构上采用云端与车端协同的设计:简单通用的短指令由端侧VLA直接处理,而复杂指令则先由云端VL基座模型解析后,再交由VLA执行,确保交互的自然流畅与准确高效。

面对AI能力增强带来的安全隐忧,理想汽车采取了两大关键措施:超级对齐与世界模型。李想强调,模型能力越强,越需要严格的职业性约束,以确保能力下限。为此,理想汽车于2024年底组建了超过100人的超级对齐团队,专注于为司机Agent注入专业驾驶员的职业素养,避免学习加塞等违规行为。同时,为解决AI决策"黑盒问题",理想汽车结合重建与生成两种技术路径,打造了真实且符合物理世界规律的世界模型,全面覆盖交通场景中的所有参与者与要素。基于这一世界模型的强大仿真能力,VLA能够低成本、高准确地验证现实问题,大幅提升问题解决效率。



李想指出,判断司机Agent是否称职有三个关键标准:专业能力、职业能力和构建信任的能力。VLA司机大模型通过自身的技术架构提升了专业能力,借助超级对齐增强了职业能力,并通过自然语言理解与记忆能力提升了与用户之间的信任构建。

在谈及理想汽车实现技术快速跃迁的秘诀时,李想将其归结为从研究、研发到能力表达,再到业务价值转化的基本功积累。他特别强调研究的重要性,认为研究突破是提升研发效率和实现业务落地的关键。例如,面对英伟达Orin-X芯片无法直接运行语言模型的挑战,理想汽车依托自有编译团队,自研底层推理引擎,实现了通过INT4(4比特整型)量化运行VLM的技术突破。同时,凭借芯片、控制器设计和自研汽车操作系统等综合能力,成功让双Orin-X芯片和Thor-U芯片高效运行同等规模的VLA司机大模型。

李想坦言,理想汽车在VLA司机大模型的语言能力研发上得益于DeepSeek的开源成果,节省了近9个月的时间和数亿元成本。尽管如此,公司仍选择加大投入,在基座模型训练上投入超预期3倍的计算资源,专注打造适配多场景的自研模型体系。"我们可以站在巨人的肩膀上,但它只是其中的一部分。"在受益于开源的同时,理想汽车也选择将自研的汽车操作系统——理想星环OS开源,以回馈社会。

编辑说:

理想汽车不仅强调技术能力的提升,更注重AI系统的安全性与可信赖性,通过"超级对齐"和"世界模型"双重保障机制,解决了智能驾驶面临的两大核心挑战:职业素养和黑盒决策。这种既追求技术突破又高度重视安全责任的平衡发展思路,反映了理想汽车作为行业新势力的成熟与责任担当。随着VLA司机大模型未来在实际道路上的应用与迭代,我们期待看到一个更加安全、智能、人性化的出行新时代加速到来。

ad1 webp
ad2 webp
ad1 webp
ad2 webp