理想汽车李想：VLA司机大模型，是从动物到人类的进化-有驾

5月7号的消息，理想汽车今天晚上搞了个活动，叫“理想AI Talk第二季——理想VLA司机大模型，从动物进化到人类”。理想汽车的老总李想在会上分享了他对人工智能的一些新想法，还聊了聊这个VLA司机大模型是干嘛的、它是怎么训练出来的、遇到哪些困难，还有他关于创业和自我成长的看法。

李想把AI工具分成了三个等级。第一级是信息工具，现在大部分人用AI就是把它当成信息工具，但是呢，这种工具经常给你一堆没用的信息、没用的结果、没用的结论，只能当个参考。

第二个等级是辅助工具，比如现在的辅助驾驶，有了AI的帮助，确实效率提高了不少，不过还是得有人来操作。

第三个等级就是生产工具了，以后AI要是发展成生产工具的话，就能自己搞定专业的工作，效率和质量都会有很大的提升。

李想说：“要判断一个智能体是不是真的智能，主要看它能不能成为生产工具。只有当AI变成了生产工具，那才算是真正的大爆发。就像我们人会雇司机一样，AI技术最后也会干这种事儿，变成真正的生产工具。”

李想在谈到自动驾驶的时候说，现在咱们看到的L2、L2+这些驾驶辅助功能，其实还只是个辅助工具，离真正的“无人驾驶”还有距离。

但是这个叫VLA的东西（就是视觉语言行动模型），可以让人工智能真的变成一个司机，而且是一个专业的“交通工具”。对理想汽车来说，未来的VLA就相当于一个能像人类司机那样工作的超级大脑。

不过啊，这事儿不是一下子就能搞定的，是个慢慢发展的过程。理想汽车把这个发展分成了三个阶段，分别对应过去、现在和未来。

第一个阶段是从2021年开始，理想自己研发了一套靠固定规则和高清地图的辅助驾驶系统，有点像“虫子那样的简单智能”。

第二个阶段是从2023年开始研究的，到2024年推出了端到端+VLM（视觉语言模型）的驾驶辅助，这就有点像“哺乳动物那样的聪明智能”了。

可是呢，这种端到端的模型在解决复杂问题的时候还是有短板，虽然可以用VLM来帮忙，但因为用的是开源模型，所以在交通方面的本事还是不够强。而且，这种模型跟人沟通起来也不太顺畅。

为了让大家有更好的智能体验，理想从2024年开始搞起了VLA的研究，在一些特别厉害的国际学术会议上还发表了论文，把理论基础打得更扎实了。

第三阶段嘛，VLA就要开始进入“人类智能”这个新境界啦。在这个阶段，它不仅能看懂图片（也就是2D的东西），还能结合3D视角，把整个物理世界看得清清楚楚，不像之前的VLM那样只能处理平面图像。

而且啊，VLA还拥有一套超级完整的“大脑系统”，不仅能说会道，还能像人一样进行逻辑推理（就是所谓的CoT，思维链）。它不仅能看得到东西，还能理解这些信息，然后采取实际行动，这可就跟咱们人类的工作方式一模一样了！

李想还详细介绍了VLA的训练过程和运作原理，说得特别清楚。

VLA的训练分三步：预训练、后训练和强化训练，有点像咱们学开车的过程。

预训练就好比咱们了解物理世界和交通规则的基础知识。通过大量的高清图片、视频这些视觉数据，还有关于交通的语言描述，再加上视觉和语言结合的数据，就能训练出一个强大的云端基础模型。然后把这个模型简化，让它能在车上流畅运行。

后训练就相当于去驾校学车。当加入了具体的驾驶动作数据，比如怎么判断周围环境和如何操作车辆，这个基础模型就变成了VLA司机大模型。

强化训练就像我们在路上实际开车练习。目的是让这个司机大模型变得更安全、更平稳，还能更好地理解人类的想法，甚至比人类开得更好。

最终，VLA司机大模型会以“司机智能体”的形式出现，用户可以直接用自然语言跟它交流，就像跟真人司机说话一样。

简单的指令，车上的VLA就可以直接处理；复杂的指令，先交给云端的VL基础模型分析，再传给VLA执行。

李想着重提到：理想的人工智能其实是在探索没人走过的路。做VLA（大型视觉语言模型）这件事，Deepseek、OpenAI、谷歌、Waymo这些公司都没走过这条路径。简单来说，理想汽车之前在汽车行业是走的无人区，现在在人工智能领域又要闯出一条全新的路子。

有驾