实测理想VLA,告别驾控难题,智能出行新体验

最近,很多人都在讨论汽车的智能驾驶功能,感觉车子变得越来越聪明了。

我们经常听到一些新名词,比如自动辅助驾驶、智能领航等等,好像司机很快就要被彻底解放了。

但一个很现实的问题摆在大家面前:现在这些所谓的“智能”驾驶,真的能让我们完全放心吗?

实测理想VLA,告别驾控难题,智能出行新体验-有驾

它们是真的在用“大脑”开车,还是仅仅在模仿我们人类司机的动作?

如果遇到一个它从未见过的复杂路况,它会不会突然“犯傻”,让我们在驾驶座上惊出一身冷汗?

这个疑问,其实是整个智能驾驶行业都在努力攻克的难关。

而理想汽车最近推出的一项名为VLA的技术,似乎正是在尝试回答这个问题,他们声称要让汽车拥有一个真正会思考、能决策的大脑,彻底告别那种只会机械模仿的驾驶状态。

要理解理想这个新技术的突破之处,我们得先看看目前市面上大多数智能驾驶系统的工作原理。

现在最主流的技术,叫做“端到端大模型”。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

这个名字听起来很专业,但用大白话讲,它的核心逻辑就是“模仿学习”。

您可以想象一下,我们想教会一个人开车,但我们不教他交通规则,也不教他车辆原理,只是让他坐在副驾驶,没日没夜地观看成千上万个小时的老司机开车录像。

看的时间长了,他就会形成一种肌肉记忆般的条件反射:看到红灯,老司机踩了刹车,那我也踩刹-车;看到前面有障碍物,老司机打了方向盘绕过去,那我也跟着打方向。

这就是“端到端”的本质,从摄像头看到图像(输入端),直接给出一个方向盘和油门的指令(输出端)。

这种方法在初期效果非常显著。

理想汽车自己也提到,依靠这种大量的视频数据“喂养”,他们的辅助驾驶系统在短短七个月内,就实现了平均需要人工接管一次的里程从12公里提升到120公里的飞跃,进步速度惊人。

但很快,瓶颈就出现了。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

理想的自动驾驶研发负责人郎咸朋博士发现,当学习的视频片段数量达到一个极高的量级,比如一千万段之后,继续增加数据量,系统的能力提升却变得非常缓慢。

原因其实不难理解,这种模仿式的学习,只知其然,而不知其所以然。

系统知道在某种情况下该做什么动作,但它完全不理解为什么要这么做。

这就导致它只能处理那些在数据里反复出现过的、有固定模式的场景。

一旦遇到一个数据库里没有的、不合常理的突发状况,比如在一个没有灯光的隧道里突然出现一个横穿马路的行人,或者一个造型奇特的异形工程车,它的“大脑”里没有对应的模仿范本,就会立刻陷入混乱,无法做出正确决策,只能将控制权交还给人类。

这种状态,被业内人士形象地称为“猴子开车”,虽然能模仿很多动作,但缺乏真正的理解和推理能力,安全上限被牢牢锁死。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

为了打破这个天花板,理想汽车选择了一条更难走的路,从“模仿学习”转向“强化学习”,其成果就是VLA司机大模型。

VLA是三个英文单词的缩写:Vision(视觉)、Language(语言)和Action(行为),这三者共同构成了一个全新的决策链路。

首先是“V”,也就是视觉感知。

这不仅仅是摄像头看到什么,而是通过车上所有的传感器,包括摄像头、激光雷达、毫米波雷达等等,对车辆周围的整个三维空间进行全面、精准的数字化重建。

哪里是道路,哪里是行人,哪里是其他车辆,它们的位置、速度和运动轨迹,都被清晰地掌握。

接着,也是整个VLA技术最核心、最关键的一环,就是“L”,语言。

这里的语言,并不是我们和车机对话的语音助手,而是指人工智能在内部理解和分析世界的一种逻辑方式。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

当系统通过视觉感知到了一个复杂的场景,它不再是直接匹配一个驾驶动作,而是会在内部进行一番类似人类思考的“逻辑推理”。

比如,系统看到前方路口,它的“内心活动”可能是这样的:“前方是一个十字路口,当前是绿灯。但是在道路右侧的斑马线附近,有几个行人正在徘徊,看起来有横穿马路的意图。同时,对向车道有一辆车打着左转灯,可能会与我抢行。综合判断,我目前的最佳策略应该是:轻微降低车速,做好随时制动的准备,密切观察行人的动向,并预判对向左转车辆的轨迹,在确保绝对安全的前提下,再加速通过路口。”这个“L”的过程,就是把冰冷的视觉数据,转化成了可以被理解、分析和推理的结构化信息,让汽车真正拥有了逻辑思考的能力。

最后一步是“A”,也就是行为。

当“L”这个大脑经过深思熟虑,制定出最优的驾驶策略后,“A”就负责将这个策略精准无误地转化为方向盘的转动、油门的深浅和刹车的力度,最终完成整个驾驶动作。

通过这种方式,AI不再是一个被动模仿的“学生”,而是在一个虚拟的驾驶模拟器中,通过无数次的试错和学习,主动探索和掌握驾驶技巧的“实习司机”,它学会的不再是固定的招式,而是处理问题的底层逻辑。

那么,这个拥有了“思考能力”的汽车,在实际道路上开起来究竟是什么感受呢?

根据体验者的描述,它的表现确实让人印象深刻。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

最直观的一点就是,你可以用非常生活化的语言来指挥车辆。

在城市道路上行驶时,你觉得车速有点慢,可以直接说“理想同学,开快点”。

车辆并不会猛地向前窜,而是会判断当前的路况,然后非常平顺地将速度从63公里/小时提升到70公里/小时。

反之,如果你说“慢一点”,它如果识别到前方是正在施工的路段,也会非常智能地将速度从40公里/小时主动降低到更安全的35公里/小时。

这种对指令的理解和对环境的感知,已经超越了简单的命令执行。

更令人称道的是靠边停车功能。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

当驾驶员发出“靠边停车”的指令后,车辆会一边平稳减速,一边柔和地向路边靠近,整个过程连贯顺滑,没有丝毫的突兀感,停稳后还会语音提示“完成停靠”。

如果你觉得停车位置不理想,甚至可以继续下达指令,比如“往前行驶20米”,它就能精准地执行,不多不少。

除了能听懂话,它还能记住你的习惯。

比如某一条路地图限速60公里/小时,但你作为车主,每次经过时都习惯开到75公里/小时。

几次之后,VLA大模型就会记住你的这个驾驶偏好。

下次再行驶到这条路时,它甚至会主动提示你,已经按照你之前的习惯将速度调整到75公里/小时。

这种个性化的记忆和适应能力,让车辆不再是一个冰冷的机器,而更像一个懂你的专属司机。

实测理想VLA,告别驾控难题,智能出行新体验-有驾

在处理人车混杂的复杂路口时,它的表现也相当“老练”。

面对不按规则行走的行人,它会提前减速并平稳停在斑马线前,甚至会和犹豫不决的行人有一个短暂的“博弈”过程,判断对方意图后果断礼让,待行人通过后,再抓住时机快速通过,整个过程既安全又高效,没有很多辅助驾驶系统常见的犹豫和顿挫感。

这项技术的快速落地,并非偶然,背后是理想汽车在数据、算力、算法和工程能力四个维度的长期积累。

首先是数据,理想拥有超过12亿公里的用户真实道路行驶数据,这是训练模型认识世界的基础。

但更重要的是,当真实数据遇到瓶颈时,他们大规模引入了仿真数据。

这相当于为AI司机量身打造了一个无限逼真的驾驶模拟器,可以在虚拟世界中经历各种现实中难以遇到的极端天气和危险场景,通过上亿次的失败和成功来学习和进化。

其次是算力,为了支撑如此庞大的模型训练和仿真,理想投入巨资建立了总计高达13 EFLOPS的训练平台,其推理资源据估算相当于三万张英伟达L20专业推理卡的集合。

如果说数据和算力是硬基础,那么领先的算法和强大的工程能力,就是将这些资源转化为实际产品的关键。

毕竟,再好的模型如果不能高效地部署到车端的芯片上并稳定运行,那对用户来说就毫无价值。

0

全部评论 (0)

暂无评论