理想汽车李想:AI大模型要成为生产工具才叫真智能
5月7号的消息,理想汽车今天晚上搞了个活动,叫“理想AI Talk第二季——理想VLA司机大模型,从动物进化到人类”。理想汽车的老总李想在会上分享了他对人工智能的一些新想法,还聊了聊这个VLA司机大模型是干嘛的、它是怎么训练出来的、遇到哪些困难,还有他关于创业和自我成长的看法。
李想把AI工具分成了三个等级。第一级是信息工具,现在大部分人用AI就是把它当成信息工具,但是呢,这种工具经常给你一堆没用的信息、没用的结果、没用的结论,只能当个参考。
第二个等级是辅助工具,比如现在的辅助驾驶,有了AI的帮助,确实效率提高了不少,不过还是得有人来操作。
第三个等级就是生产工具了,以后AI要是发展成生产工具的话,就能自己搞定专业的工作,效率和质量都会有很大的提升。
李想说:“要判断一个智能体是不是真的智能,主要看它能不能成为生产工具。只有当AI变成了生产工具,那才算是真正的大爆发。就像我们人会雇司机一样,AI技术最后也会干这种事儿,变成真正的生产工具。”
理想汽车的智能驾驶进化三步走
李想在谈到自动驾驶的时候说,现在咱们看到的L2、L2+这些驾驶辅助功能,其实还只是个辅助工具,离真正的“无人驾驶”还有距离。
但是这个叫VLA的东西(就是视觉语言行动模型),可以让人工智能真的变成一个司机,而且是一个专业的“交通工具”。对理想汽车来说,未来的VLA就相当于一个能像人类司机那样工作的超级大脑。
不过啊,这事儿不是一下子就能搞定的,是个慢慢发展的过程。理想汽车把这个发展分成了三个阶段,分别对应过去、现在和未来。
第一个阶段是从2021年开始,理想自己研发了一套靠固定规则和高清地图的辅助驾驶系统,有点像“虫子那样的简单智能”。
第二个阶段是从2023年开始研究的,到2024年推出了端到端+VLM(视觉语言模型)的驾驶辅助,这就有点像“哺乳动物那样的聪明智能”了。
可是呢,这种端到端的模型在解决复杂问题的时候还是有短板,虽然可以用VLM来帮忙,但因为用的是开源模型,所以在交通方面的本事还是不够强。而且,这种模型跟人沟通起来也不太顺畅。
为了让大家有更好的智能体验,理想从2024年开始搞起了VLA的研究,在一些特别厉害的国际学术会议上还发表了论文,把理论基础打得更扎实了。
VLA迎来“人类智能”新阶段
第三阶段嘛,VLA就要开始进入“人类智能”这个新境界啦。在这个阶段,它不仅能看懂图片(也就是2D的东西),还能结合3D视角,把整个物理世界看得清清楚楚,不像之前的VLM那样只能处理平面图像。
而且啊,VLA还拥有一套超级完整的“大脑系统”,不仅能说会道,还能像人一样进行逻辑推理(就是所谓的CoT,思维链)。它不仅能看得到东西,还能理解这些信息,然后采取实际行动,这可就跟咱们人类的工作方式一模一样了!
理想汽车李想讲解VLA训练与运作
李想还详细介绍了VLA的训练过程和运作原理,说得特别清楚。
VLA的训练分三步:预训练、后训练和强化训练,有点像咱们学开车的过程。
预训练就好比咱们了解物理世界和交通规则的基础知识。通过大量的高清图片、视频这些视觉数据,还有关于交通的语言描述,再加上视觉和语言结合的数据,就能训练出一个强大的云端基础模型。然后把这个模型简化,让它能在车上流畅运行。
后训练就相当于去驾校学车。当加入了具体的驾驶动作数据,比如怎么判断周围环境和如何操作车辆,这个基础模型就变成了VLA司机大模型。
强化训练就像我们在路上实际开车练习。目的是让这个司机大模型变得更安全、更平稳,还能更好地理解人类的想法,甚至比人类开得更好。
最终,VLA司机大模型会以“司机智能体”的形式出现,用户可以直接用自然语言跟它交流,就像跟真人司机说话一样。
简单的指令,车上的VLA就可以直接处理;复杂的指令,先交给云端的VL基础模型分析,再传给VLA执行。
李想:理想汽车要闯无人区做人工智能
李想着重提到:理想的人工智能其实是在探索没人走过的路。做VLA(大型视觉语言模型)这件事,Deepseek、OpenAI、谷歌、Waymo这些公司都没走过这条路径。简单来说,理想汽车之前在汽车行业是走的无人区,现在在人工智能领域又要闯出一条全新的路子。
全部评论 (0)