理想智驾的破局时刻
7月29日晚,理想i8正式上市,售价32.18万元至36.98万元,成为理想首款纯电SUV。与以往不同,这次理想没有选择开辟新赛道,而是直面纯电市场最硬的骨头补能效率与智能驾驶。在众多技术路线中,理想首发了VLA(Vision-Language-Action)模型,早于所有竞争对手完成车端部署。这一动作,标志着理想从“跟随者”向“领跑者”的转身。
发布会上的掌声还未散去,我已坐在i8的副驾,目睹它在狭窄双向道上拒绝跨线变道。那一刻我明白,这不再是简单升级的辅助驾驶,而是一套有价值观的决策系统。VLA不是模仿人类司机,而是试图成为更安全、更稳定的家庭司机。它不追求极限操作,而是把“安心”刻进算法基因。
数据筑起的护城河
五年前,理想在智驾领域还被称作“差生”。那时我们还在依赖高精地图,而行业早已转向“轻地图”甚至“去地图”。转折点出现在2019年,李想面试郎咸朋时问:“自动驾驶最关键的要素是什么?”对方答:“数据。”从理想ONE开始,理想就构建了完整的数据闭环。如今,12亿公里的真实驾驶数据,构成了VLA训练的基石。
同行可以买芯片、挖人才,但拿不走这12亿公里的积累。就像川菜师傅炒回锅肉,火候靠的是日复一日的灶台经验,不是菜谱。我们做过仿真对比测试,用150多万公里实测数据反向验证仿真环境,让虚拟世界的还原度达到99.9%以上。世界模型的真实性,决定了AI司机能否真正理解现实世界的复杂性。
算力榨出每一分潜能
有人问,Thor芯片并非理想自研,凭什么撑起VLA?答案是“压榨”。我们从去年就在Orin芯片上魔改CUDA底层,重写PTX指令,把一帧推理从500毫秒压缩到100毫秒以内。这就像在成都窄巷里开SUV,方向盘打半圈还是打七分,差之毫厘,体验天壤。FP16降到FP8,不是简单降精度,而是建立在海量数据清洗基础上的系统工程。

英伟达当初觉得大模型上车不可能,但我们做到了。现在Thor芯片的有效算力已被榨出近10倍性能提升。未来FP4不是梦,前提是训练数据足够干净、迭代流程足够高效。芯片是骨骼,算法是神经,真正让车“活”起来的,是工程团队对细节的偏执。
语言赋予机器思考力
VLA中的“L”Language,才是真正的分水岭。传统端到端模型是“看图行事”,而VLA能理解“前进5米”这样的指令。这不是特训结果,而是大模型对物理空间的泛化理解。就像小孩子学会“远”和“近”,不需要每次都教他走几步。语言能力让自动驾驶从“反应式”走向“推理式”。
我们训练了一个32B的云端大模型,再通过蒸馏压缩到车端3.2B的MoE架构。Diffusion模型原本需10步推理,我们用flow matching压缩到2步。这些技术组合,让VLA具备了组合泛化能力,能应对从未见过的复杂场景。它不再只是识别车道线,而是在“思考”如何安全通过。
通向具身智能的起点
VLA的意义不止于开车。它验证了一条路径:用视觉理解世界,用语言组织逻辑,用行动执行决策。这正是具身智能的核心范式。理想已成立机器人部门,VLA的技术框架未来可能延伸至服务机器人、工业终端等物理AI场景。
当前MPA(百万公里事故率)目标是人类驾驶的10倍安全,这需要VLA持续进化。行业追逐MPI(人工接管间隔),但我们更关注每一次接管背后的原因是危险规避,还是舒适性不足?真正的领先,不在于谁先发布功能,而在于谁能让用户真正敢放手。
未来的道路不会平坦,但方向已经清晰:让机器不仅会驾驶,更能理解驾驶的意义。
全部评论 (0)