一叶落而知天下秋,智能驾驶领域最近这几日,人事变动如潮汐般涌动,激荡起层层涟漪。
小鹏汽车自动驾驶中心的掌舵人悄然易位,由精通“世界基座模型”的刘先明接任;几乎同时,蔚来汽车的“世界模型”团队也传来高管离职的消息,马宁宁等核心人物的离开,无疑为这场技术巨头的博弈增添了几分神秘色彩。
两家公司皆对外宣称,此举是为了全力冲刺“世界模型”的新版本,这背后,究竟隐藏着怎样的技术路线之争?
“世界模型”:AI的“内心戏”与现实的“预演场”
要理解这场博弈的本质,我们不得不先弄明白,“世界模型”究竟是个什么玩意儿?
它绝非简单的技术堆砌,而是人工智能试图窥探和模拟宇宙运行奥秘的宏大尝试。
简单来说,它就是AI的“内心戏”,是它构建的一个内部系统,用以理解、预测并模拟现实世界的运作逻辑。
弗若斯特沙利文在《2025年中国世界模型白皮书》中将其定义为:能够理解现实动态,包括物理和空间属性的生成式AI模型。
它能通过文本、图像、视频乃至运动轨迹等多元信息,生成逼真的视频内容,从而深入洞察现实环境的物理特性,并能模拟、指导乃至执行决策。
清华大学电子工程系的研究更是揭示了其双重机制:一是构建外部世界的隐式表征,二是预判物理世界的未来走向。
这好比为AI系统装备了一台“潜意识推理”引擎,使其不仅能感知当下,更能洞悉未来可能发生的种种情境。
这与古人“运筹帷幄之中,决胜千里之外”的智慧,何其相似!
从“辅助”到“基石”:世界模型如何重塑智能驾驶?
在智能驾驶的版图上,“世界模型”正从过去可有可无的“锦上添花”,蜕变为不可或缺的“核心基石”。
它极大地提升了自动驾驶系统的“认知”与“决策”能力。
蔚来官方将其视为继BEV&Transformer、占用网络OCC、端到端等技术之后的又一次“跨越式进步”。
想象一下,它拥有全景式的理解力,能在想象的维度洞悉物理规律,并重构整个世界。
成本的考量,更是推动“世界模型”加速普及的关键。
自动驾驶的成长,离不开海量数据的“喂养”和丰富场景的“锤炼”。
而“世界模型”的魅力在于,它能够自主生成带有标注的图像与视频数据,甚至包含那些极端且罕见的场景,这无疑极大地规避了昂贵真实数据采集的成本。
业内估算,无需大量人工干预,它就能生成多模态、时序一致的场景,显著降低建模与标注的投入。
这简直是为自动驾驶的“数据荒”开出了一剂良方!
VLA与世界模型:一场不宣而战的技术路线“军备竞赛”
当前,智能驾驶领域正上演着一场激烈的技术路线博弈,主要分为两大阵营:VLA(视觉-语言-动作)与“世界模型”。
VLA让车辆能够“边看、边想、边行动”。
例如,在十字路口,面对来车、行人以及导航指令,VLA系统能整合多源信息,直接输出驾驶指令。
然而,“世界模型”的拥趸们认为,VLA的本质仍是语言模型的“打补丁”,其信息带宽有限,难以真正领会复杂物理世界的精髓。
他们更推崇直接以视频为核心,让模型自行学习时空与物理规律,构建一套高带宽的“时空认知”体系。
小鹏汽车的态度转变尤为引人注目,从曾经的VLA坚定支持者,到如今将战略重心全面转向“世界基座模型”。
他们坦言:“自动驾驶VLA大模型只是世界基座模型的应用,更难的是让模型具备推演世界的能力。”
这句话,掷地有声,直指核心。
巨头逐鹿:蔚来、小鹏、华为的“世界模型”版图
这场“世界模型”的竞赛,汇聚了多位重量级玩家,他们各自描绘着独特的技术蓝图。
蔚来,在2024年7月的NIO IN创新科技日上,高调发布了“中国首个智能驾驶世界模型NWM”。
据介绍,该模型能在百毫秒内推演216种可能轨迹,并从3秒视频输入生成120秒的想象视频。
蔚来选择了“世界模型+强化学习”的双轨并行策略。
小鹏则在今年4月的香港AI技术分享会上,披露了其720亿参数的超大规模自动驾驶大模型——“小鹏世界基座模型”。
这一模型不仅将赋予小鹏汽车全新的智能驾驶“大脑”,还能通过云端蒸馏技术部署到车端,并赋能AI机器人、飞行汽车等多种终端设备。
华为的路径则别具一格。
他们不寻求构建一个包罗万象的单一“世界模型”,而是将所需能力拆解,通过顶尖工程能力整合。
其ADS系统中的GOD 2.0网络与道路拓扑推理网络,共同承担了“世界模型”的关键职能。
前路漫漫,挑战与曙光并行
尽管“世界模型”的前景一片光明,但其发展之路并非坦途。
中国信通院人工智能研究所所长魏凯曾指出,“世界模型”的技术路线尚在百花齐放的探索阶段,面临诸多挑战。
实现方法涵盖生成式模型、强化学习、多模态融合等,各有所长,也各有所局。
目前,其应用主要集中在自动驾驶领域,其他行业的广泛落地尚需时日。
更关键的是,精确的预测能力,严重依赖于模型的复杂度和数据质量。
要模拟复杂环境中的动态变化,需要海量数据和强大的计算资源,这无疑是一笔庞大的开销,也意味着漫长的周期。
然而,行业对此的信心从未动摇。
随着时间的推移,“世界模型”必将成为突破L4级自动驾驶规模化部署瓶颈的加速器,是构建自动驾驶智能体迈向类人认知与判断模式的基石。
华为车BU CEO靳玉志更是大胆预测:“2027年,开车或许真能彻底歇脚了!”
如今,L2级智能驾驶的装配率已超过半数,但用户的高频使用率却不足15%。
这赤裸裸地揭示了当前技术与用户期待之间的鸿沟。
“世界模型”的出现,或许正是弥合这道鸿沟的关键。
它带来的,不只是更敏锐的“眼睛”,更是更接近人类的“大脑”,是“拥有常识和智慧的真正大脑”,而非仅仅是“死记硬背的优等生”。
“世界模型”的降临,预示着自动驾驶将迎来一次深刻的变革,它让“人车合一”的未来,不再是遥不可及的幻想,而是触手可及的现实。
全部评论 (0)