小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆

小鹏又放大招了!

这次不是简单的硬件升级,也不是新车款的改动,而是技术层面上的一次震撼。

3月2日,小鹏在上海发布了第二代VLA(视觉语言行动模型),这个模型可是业界瞩目的焦点。

X9,作为首发车型,直接搭载了它。

这意味着什么?

意味着传统的智驾逻辑要被彻底改写。

我觉得这个发布会现场气氛挺微妙,毕竟谁都知道,硬件再牛,软件差点儿的,还是开不了车。但小鹏这次居然在算法上批量搞端到端,省去了理解-转述-行动的繁琐环节。

你想啊,这环节多繁琐——车子看懂了,还得用语言告诉你我看到前方有个红灯,停车,然后再行动。繁琐不说,还容易信息损失,响应慢,有时候反而像个出错的机器人。

而小鹏直接跳过了语言,直接让视觉输入到动作生成。听着挺玄乎,但细想一下,这其实就是模拟人类的反应:看到什么就立刻做什么,没有中间那一套繁琐的描述和指令。

我随手刷了一下官方资料,说这里面用到的训练数据,相当于6.5万个年的极限场景,全部用视频片段训练,规模惊人。不知道大家是不是跟我一样,第一次觉得数据越多,模型就越聪明。

细节又引发疑问。这个模型对突发状况的反应究竟快到什么程度?我有个朋友是工程师,他说:端到端的反应时间理论上会比传统多一层理解快。但实际上,算法优化出来的速度和稳定性如何?还能不能在复杂环境下稳定工作?这是我比较关心的。

再说,参数量搞到720亿,也不是随便的事。你试想,普通一线车企的自主研发团队,花十几亿研发的车型,参数量可能只有几亿到几十亿级别。而这个720亿的模型,意味着需要极高的算力支持——不仅是训练成本,推理时的算力也不能省。

训练是用云集群,推理在车载硬件,肯定也是硬件和能耗的博弈。

跑到现场,我还观察到,X9的摄像头阵列比以前密集很多,每个角度几乎都装了摄像头。有人说,这多摄像头未必代表感知更好,可能只是数据多了,更复杂。而且,摄像头的识别算法要匹配这些大模型,要保持实时性,本身就压力山大。

更别说,我还看了一次调试现场,工程师半笑着跟我说:只要你让车知道你在干嘛,它就能做出反应。多测几万次,不就行了。

对比一下特斯拉的视觉方案,差异也挺明显。特斯拉走的是监测+感知+决策的传统套路,视觉识别再加上硬编码,但效果在夜间、雨天时常会出现差异。而小鹏这次,试图用大量训练数据让模型学会各种复杂场景——可这技术要达到的稳定性,可能还得时间验证。

毕竟,从研发角度,想打破规则,谁都得试错。

我还一直在想,这次中国厂商在底层技术上硬拼,主要给了我个启发:产业链背后,数据和算力真的是碾压一切的硬核。像腾讯、百度这些公司都在布局,没搞清楚,早晚会被秒杀。这让我觉得,中国智驾不是在跟随快,而是甩开一大截。

全球的合作方也不是白跑一趟。德国人开始对中国大厂投来合作或借鉴的眼光,也不奇怪。毕竟,像大众这样有传统的汽车巨头,也在看着这个新变局。其实我猜测,未来很多车机系统也可能会采纳类似方案——不用我说,底层改写,只要能在实践中验证,没人会拒绝。

你们不知道,我还翻查了些资料,发现很多传统制造商的科研室有人坦言:我们在思考,是否也要像小鹏一样,跳过中间理解,直接端到端。这个话题我们稍后再说(其实我也没搞明白,怎么在保证稳定性同时还要快速迭代),至少可以确定,下一代智驾的竞争焦点一定是响应速度和深度学场景适应性。

有人问我:这个趋势会持续吗?我尝试用一个简单比喻:就像手机从按键到触屏,再到语音交互,技术不断演进,短期内或许不会全部取代,但端到端这一块,绝对会成为核心。

从用户角度讲,直觉是更自然的反应,比理解-再行动的流程更接近自己——其实这也像我们和朋友聊天时,很多时候不需要用言语描述,就知道对方在想什么。

我刚查了当时记录,发现X9那套自动泊车的方案,用了个特别精妙的近距离感知算法——不是传统的激光扫描,而是结合视觉,利用大模型增强识别。要不是亲自跑现场,我很难想象一辆车能这么会看。这会看背后的算力和算法模型,复杂得像个黑箱。

我一直在思考:这场技术革命,会不会只是制造商堆算法的噱头?实际上,硬件改善空间其实有限,关键还是算法上能不能说服自己。这也是我觉得麻烦——模型再大,再复杂,一旦在复杂场景出现误差,后果就不堪设想。

我觉得这次发布其实很有导向意义:把视觉→动作的流程简化,等于是在赋予车更多直觉。而不用太多解释就能直观响应的设计,未来可能会成为主流。有人可能觉得这只是个技术流派的小前奏,但实际上,技术一旦成熟,应用场景就会爆炸。

对我个人来说,好奇心被勾起的点多了。有没有可能,这样的端到端模型,未来能用于无人配送、工程机械或者甚至未来的机器人?市场到底能接受到什么程度?我估计,如果这个模型稳定性再提升一点,那就真成了无人驾驶的未来。

反正看这个发展趋势,我觉得,行业的软地基必须提前打牢。大规模训练、数据多元化、算力支撑——一环扣一环,没有这些,单纯靠算法花哨,只能浮于表面。虽然,我也会怀疑:技术越走越快,但别忘了——道路安全和用户信任,永远才是硬指标。

这个话题还得留个悬念——这么先进的技术到底什么时候能彻底普及?是不是所有车型都能用上?估计还要几年时间才能看清楚方向走得稳不稳。也许,有一天驾驶员会惊讶:那天我还在用人类理解-指令-行动的老套路,而车子都能自己直觉反应了。

(这个话题我们暂时就到这里,先留点想象空间。)

小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
小鹏又放大招了,第二代VLA模型3月2日发布,X9首搭大众成首发客户,传统智驾被端到端革命彻底颠覆-有驾
0

全部评论 (0)

暂无评论