小鹏又放大招了，第二代VLA模型3月2日发布，X9首搭大众成首发客户，传统智驾被端到端革命彻底颠覆-有驾

小鹏又放大招了！

这次不是简单的硬件升级，也不是新车款的改动，而是技术层面上的一次震撼。

3月2日，小鹏在上海发布了第二代VLA（视觉语言行动模型），这个模型可是业界瞩目的焦点。

X9，作为首发车型，直接搭载了它。

这意味着什么？

意味着传统的智驾逻辑要被彻底改写。

我觉得这个发布会现场气氛挺微妙，毕竟谁都知道，硬件再牛，软件差点儿的，还是开不了车。但小鹏这次居然在算法上批量搞端到端，省去了理解-转述-行动的繁琐环节。

你想啊，这环节多繁琐——车子看懂了，还得用语言告诉你我看到前方有个红灯，停车，然后再行动。繁琐不说，还容易信息损失，响应慢，有时候反而像个出错的机器人。

而小鹏直接跳过了语言，直接让视觉输入到动作生成。听着挺玄乎，但细想一下，这其实就是模拟人类的反应：看到什么就立刻做什么，没有中间那一套繁琐的描述和指令。

我随手刷了一下官方资料，说这里面用到的训练数据，相当于6.5万个年的极限场景，全部用视频片段训练，规模惊人。不知道大家是不是跟我一样，第一次觉得数据越多，模型就越聪明。

细节又引发疑问。这个模型对突发状况的反应究竟快到什么程度？我有个朋友是工程师，他说：端到端的反应时间理论上会比传统多一层理解快。但实际上，算法优化出来的速度和稳定性如何？还能不能在复杂环境下稳定工作？这是我比较关心的。

再说，参数量搞到720亿，也不是随便的事。你试想，普通一线车企的自主研发团队，花十几亿研发的车型，参数量可能只有几亿到几十亿级别。而这个720亿的模型，意味着需要极高的算力支持——不仅是训练成本，推理时的算力也不能省。

训练是用云集群，推理在车载硬件，肯定也是硬件和能耗的博弈。

跑到现场，我还观察到，X9的摄像头阵列比以前密集很多，每个角度几乎都装了摄像头。有人说，这多摄像头未必代表感知更好，可能只是数据多了，更复杂。而且，摄像头的识别算法要匹配这些大模型，要保持实时性，本身就压力山大。

更别说，我还看了一次调试现场，工程师半笑着跟我说：只要你让车知道你在干嘛，它就能做出反应。多测几万次，不就行了。

对比一下特斯拉的视觉方案，差异也挺明显。特斯拉走的是监测+感知+决策的传统套路，视觉识别再加上硬编码，但效果在夜间、雨天时常会出现差异。而小鹏这次，试图用大量训练数据让模型学会各种复杂场景——可这技术要达到的稳定性，可能还得时间验证。

毕竟，从研发角度，想打破规则，谁都得试错。

我还一直在想，这次中国厂商在底层技术上硬拼，主要给了我个启发：产业链背后，数据和算力真的是碾压一切的硬核。像腾讯、百度这些公司都在布局，没搞清楚，早晚会被秒杀。这让我觉得，中国智驾不是在跟随快，而是甩开一大截。

全球的合作方也不是白跑一趟。德国人开始对中国大厂投来合作或借鉴的眼光，也不奇怪。毕竟，像大众这样有传统的汽车巨头，也在看着这个新变局。其实我猜测，未来很多车机系统也可能会采纳类似方案——不用我说，底层改写，只要能在实践中验证，没人会拒绝。

你们不知道，我还翻查了些资料，发现很多传统制造商的科研室有人坦言：我们在思考，是否也要像小鹏一样，跳过中间理解，直接端到端。这个话题我们稍后再说（其实我也没搞明白，怎么在保证稳定性同时还要快速迭代），至少可以确定，下一代智驾的竞争焦点一定是响应速度和深度学场景适应性。

有人问我：这个趋势会持续吗？我尝试用一个简单比喻：就像手机从按键到触屏，再到语音交互，技术不断演进，短期内或许不会全部取代，但端到端这一块，绝对会成为核心。

从用户角度讲，直觉是更自然的反应，比理解-再行动的流程更接近自己——其实这也像我们和朋友聊天时，很多时候不需要用言语描述，就知道对方在想什么。

我刚查了当时记录，发现X9那套自动泊车的方案，用了个特别精妙的近距离感知算法——不是传统的激光扫描，而是结合视觉，利用大模型增强识别。要不是亲自跑现场，我很难想象一辆车能这么会看。这会看背后的算力和算法模型，复杂得像个黑箱。

我一直在思考：这场技术革命，会不会只是制造商堆算法的噱头？实际上，硬件改善空间其实有限，关键还是算法上能不能说服自己。这也是我觉得麻烦——模型再大，再复杂，一旦在复杂场景出现误差，后果就不堪设想。

我觉得这次发布其实很有导向意义：把视觉→动作的流程简化，等于是在赋予车更多直觉。而不用太多解释就能直观响应的设计，未来可能会成为主流。有人可能觉得这只是个技术流派的小前奏，但实际上，技术一旦成熟，应用场景就会爆炸。

对我个人来说，好奇心被勾起的点多了。有没有可能，这样的端到端模型，未来能用于无人配送、工程机械或者甚至未来的机器人？市场到底能接受到什么程度？我估计，如果这个模型稳定性再提升一点，那就真成了无人驾驶的未来。

反正看这个发展趋势，我觉得，行业的软地基必须提前打牢。大规模训练、数据多元化、算力支撑——一环扣一环，没有这些，单纯靠算法花哨，只能浮于表面。虽然，我也会怀疑：技术越走越快，但别忘了——道路安全和用户信任，永远才是硬指标。

这个话题还得留个悬念——这么先进的技术到底什么时候能彻底普及？是不是所有车型都能用上？估计还要几年时间才能看清楚方向走得稳不稳。也许，有一天驾驶员会惊讶：那天我还在用人类理解-指令-行动的老套路，而车子都能自己直觉反应了。

（这个话题我们暂时就到这里，先留点想象空间。）

小鹏又放大招了，第二代VLA模型3月2日发布，X9首搭大众成首发客户，传统智驾被端到端革命彻底颠覆