理想自动驾驶赢的概率很大!太被低估了

电动车的下半场,拼的是自动驾驶。我个人是比较喜欢李想这个人的,真性情,而且我认为理想还是很有机会赢的。理想的价值是被严重低估的,现在只有1500亿港币的市值,还不到特斯拉的零头

理想自动驾驶赢的概率很大!太被低估了-有驾

因为论高阶智驾车队的数量,除了特斯拉中国是300万辆断档领先外。理想现在是拥有国内最大的高阶智驾能力的车辆,约150万辆。

比亚迪呢?虽然比亚迪保有车辆1500万辆左右,但能产生有用数据的高阶智驾车队估计只有100万辆

剩下的华为的鸿蒙智行约90万辆、小鹏约70万辆、蔚来约100万辆、小米约50万辆

特斯拉虽然车多数据多技术领先,但理想、华为技术都有优势。下面展开说。

智驾技术本身具有极强的马太效应,这会让落后者迅速被淘汰

比如特斯拉中国有300万辆车在跑,理想有150万辆车在跑。越多 -> 数据越多 -> 模型迭代越快 -> 智驾越好用 -> 买的人越多 -> 车更多

销量小的车企,根本凑不够训练端到端模型所需的海量视频数据。没有数据,模型就变傻;模型变傻,车就更卖不出去。 这是一个死循环。

而且训练端到端大模型需要数万张GPU,动辄投资几百亿。小厂和传统车企根本没有这个预算和决心去建设这种级别的超算中心。车的销量是必须稳下来的生命线。现在看来理想虽然面临华为的巨大压力,但应对的还是很不错的。

理想自动驾驶赢的概率很大!太被低估了-有驾

那销量最大的比亚迪呢?抱歉,我认为比亚迪在自动驾驶里非常危险了,因为船夫哥真的不懂自动驾驶,船夫哥也许是最懂制造和成本的钱企业家,他赌对了上半场是电动化,且是电动化的最大赢家,是极度务实的制造业狂人。

但自动驾驶方面,因为车型价位跨度太大,无法一刀切。从 7.98万 的秦PLUS,到 100多万 的仰望 U8,价格相差十几倍。如果在 7.98万 的秦上硬塞一颗英伟达 加激光雷达,车就得亏本卖。

对于走量的车(秦、宋、海鸥),用户对智驾不敏感,只要有倒车影像和定速巡航就行,鸡蛋放在不同篮子里。比亚迪低端用黑芝麻,中端用地平线,高端用英伟达,同时还在偷偷自研芯片。

结果是什么呢?供应链安全了,议价权高了,但技术架构碎了一地。

摄像头不一样,传感器不一样、芯片指令集也不一样,要把这些数据清洗、对齐、统一去训练一个端到端大模型,这不是难为我胖虎吗?

所以比亚迪的智驾团队非常痛苦。因为他们需要维护十几套不同的软件分支。刚给英伟达平台写好代码,又要去适配地平线 ,又要去改黑芝麻的代码。

这就导致比亚迪空有1500万辆车的保有销量,却很难形成数据飞轮。

客观的说,秦、宋卖爆了,不是因为它们智驾好,而是因为它们作为一辆车本身的性价比无敌

王传福的策略是可能是等技术成熟了,我再砸钱追。现在的比亚迪钱赚够了,就开始疯狂补课,比亚迪正在努力把软件层统一,试图屏蔽底层芯片的差异。

前两年,比亚迪几乎要把市面上的智驾工程师挖空了,现在智驾团队几千人了。接下来的看点是,比亚迪能不能靠着钞能力和人海战术,强行把那个碎了一地的数据

给修好。如果能修好,凭借他一年 400 万辆的增量,依然恐怖;如果修不好,那就看未来中高端车型能不能突破。如果都不能,在未来的“端到端"自动驾驶决赛圈,比亚迪可能会面临"有身躯无灵魂”的风险。

特斯拉是怎么做的呢?特斯拉中国300万辆车(为什么不是全球900万辆?因为数据不出境),用的都是同一套视觉系统、同一套算力平台。回传的数据格式整齐划一,直接丢进大模型就能喂 FSD

比亚迪呢?虽然比亚迪保有车辆1500万辆左右,但能产生有用数据的高阶智驾车队估计只有100万辆,理想约150万辆,华为的鸿蒙智行约90万辆、小鹏约70万辆、蔚来约100万辆、小米约50万辆、大家是在一个数量级的。

那特斯拉稳赢吗?在美国是的稳赢,因为中国车企进不去,但中国不是!因为涉及地缘政治与数据主权,数据不出境,自动驾驶涉及国家地理信息和道路数据,是国家安全机密。特斯拉想在中国用 FSD,数据必须留在中国,所以美国的FSD远强于中国的FSD,中国车企想去欧洲或美国卖智驾,也会面临极其严苛的数据监管。

所以在我看来,世界大概率会被割裂成两个独立的自动驾驶生态圈。

美国就比较清楚了就特斯拉、Waymo两个玩家,特斯拉稳赢。在中国华为、百度、理想、小鹏、小米、特斯拉、萝卜快跑决胜负。

所以最精彩的看中国。

自动驾驶对区域性的垄断是必然结果。在中国,是一个清洗掉 90% 玩家的游戏

1对于车企:未来只有两类车企能活得好,要么是自己掌握顶尖智驾技术的,要么是彻底投靠智驾巨头的如赛力斯投靠华为。既没技术又想乱自研的传统车企,会死得很惨。

2对于技术供应商,最终全球可能只会剩下 3-5 家 顶级的通用智驾系统提供商类,似现在的 Windows 和 Android 地位。

所以,现在车企们这么焦虑地拼命卷,因为他们都知道:这张入场券的数量极其有限,一旦掉队,就没有翻身的机会了。

驾驶这件事的市场太大了,最终Robotaxi式的无人出租车服务市场规模可能达到2万亿-5万亿美元,中国不能输,现在看来其实中国也不会输。

理想自动驾驶赢的概率很大!太被低估了-有驾

理想

虽然同是端到端,但与特斯拉那种纯粹的“一个模型打天下”的端到端不同,理想采用的是一套独特的端到端 + VLM(视觉语言模型)的双系统架构

简单来说,理想的方案走的是仿生学路线。是把人类的直觉(快思考)和逻辑推理(慢思考)拆分成了两个独立的系统来配合工作,模仿人脑

理想的这套架构应该是受《思考,快与慢》启发,将自动驾驶系统分为两个部分

系统 1(快系统)

端到端模型,类似于人类的直觉或下意识反应,负责处理 95% 的常规驾驶场景。我们人开车就是凭本能开车的

给大模型输入传感器数据(图像、激光雷达等),直接输出车辆的行驶轨迹。中间不再像以前那样由人工编写的规则代码(如感知、预测、规划分模块),直接一步到位。这种方式的特点呢是反应速度极快,延迟低,像老司机一样凭经验开车。

系统2(慢系统)

在此基础上,理想的视觉语言模型也就是VLM,类似于人类的逻辑思考。负责处理剩余 5% 的复杂、未知或长尾场景。例如:复杂的车道、看不懂的路牌、坑洼路面、路边有警察指挥等。让VLM模型模仿人类理智大脑去处理问题

当系统1遇到搞不定的复杂路况时,系统2会进行逻辑推理,用人类语言理解场景,然后输出决策建议给系统1。

理想的框架比特斯拉更接近人类真实的驾驶思维——既有老司机的条件反射(端到端),又有在遇到陌生路况时的理性分析能力(VLM)

理想自动驾驶赢的概率很大!太被低估了-有驾

华为

华为虽然也叫端到端,它不像特斯拉那样说“我就是一个大模型,目前看华为技术和理想一样不是纯端到端,比较相似。

华为不愧是中国最牛逼的科技公司,是真能打。华为的自动技术现在也是最能打的,但不是说华为就赢了,决赛圈还没来呢!

华为把ADS 3.0拆解成了看得懂(GOD)、开得好(PDP)和刹得住(CAS)三个核心部分。

GOD:华为不把物体分类(不管你是羊还是石头),它只看物理空间有没有被占据

传统的智驾系统只认识它“学过”的东西。比如系统学过汽车、行人、骑行者,它能识别。但如果路上突然出现一个侧翻的货车、掉落的轮胎、或者一只趴着的羊,传统系统因为没学过,就会认为“前面没东西”,直接撞上去

华为的逻辑是:只要这个方块里有物体挡着,GOD 网络就判定这里“不可通行”

哪怕它根本不知道前面那坨东西是什么(比如外星人),只要这东西占了地盘,华为的车就能绕开或刹停

PDP:预测决策规划网络。

这是 ADS 3.0 引入的新东西,也是端到端化

在 PDP 出现之前,自动驾驶的脑子是分步骤工作的,并且处理“预测"和“规划"是串行的:

第一步(预测别人): 先看对方的车。算出它有 30% 概率左转,70% 概率直行。注意,这个时候还没考虑我要怎么走,完全是在猜对方。

第二步(规划自己): 基于对方“大概率直行"的这个猜测,我再计算我的路径:那我就减速让行吧。

但它把“别人”和“自己”割裂了。实际上,你的动作会影响对方的动作。如果你突然加速,对方可能就不敢直行了;如果你犹豫,对方可能就抢先了。传统模式很难处理这种互相博弈

如果机器人刚准备左转,旁边的车突然变道了怎么办?机器人就会傻眼,因为它刚才的计划是基于"它会直走"这个死前提做的。这就导致以前的自动驾驶遇到加塞时,要么急刹车,要么傻傻地停住。

PDP的创新在于不是算一条路而是多条

比如:

路径 A(推演): 如果我加速+他减速=结果通过(安全)

路径 B(推演):如果我加速+他也加速=结果撞车(危险)。

路径 C(推演):如果我减速+他加速=结果通过(耗时)。

PDP 的核心在于它把“预测别人"和“规划自己"放在同一个神经网络里一起算。而不是像其他自动驾驶是吧预测”和“规划”是串行的。牛逼之处在于,它不仅仅是在预测那辆车会怎么走,它是在预测如果我这么走,环境会怎么变。它考虑了“我”对环境的影响。

这就像 AliphaGo 下围棋。AlphaGo 不是先猜对手下一手下哪,然后再想自己下哪。它是在脑海里模拟了后面几十步双方的互相绞杀,然后选出胜率最高的那一手。

其实就是把感知到的环境直接扔进大模型,大模型输出的是一条经过了博弈计算的最优轨迹。

别的端到端也会预测多条路,PDP 的不同点在于:

1.交互性:它把“预测别人"和“规划自己"揉在一起算,解决了我和他博弈的问题(比如挤车道、无保护左转),这比传统的"先预测后规划"更先进。

2.轨迹输出:它输出的是明确的轨迹,而不是直接的操作指令。这让华为可以在后面加一道"安全锁"(CAS),这也是为什么华为一直强调自己比纯觉端到端更安全的原因。

PDP 就是一个会算"我进你退、我退你进"的大脑,而且它算出来的路,还得经过安全员(CAS)检查才能开。

CAS:

华为不完全信任 AI(PDP网络)。万一 AI 抽风了怎么办?

华为的架构里,本能安全网络(Safety Network)权重很高,即便端到端大模型犯错,底层的安全网也会拦截,它时刻盯着传感器数据,一旦发现即将发生碰撞(比如前车急刹),不管 PDP 规划的想怎么开,CAS 会强行接管车辆,直接把车刹停。

华为敢喊遥遥领先是因为华为真牛逼啊。

区别于理想,华为更强调 GOD 网络对物理空间的理解(防碰撞),理想更强调 VLM 对语义环境的理解(懂交规和路况)。现在看华为还是强

理想自动驾驶赢的概率很大!太被低估了-有驾

再说说特斯拉

特斯拉是纯粹的纯端到端

特斯拉是目前走得最彻底的。它不区分感知、预测、规划等模块,也没有显式的“VLM辅助系统”。特斯拉构建了一个巨大的神经网络,摄像头拍到的视频数据输入进去,大模型直接输出方向盘转角和油门刹车信号。

特斯拉的自动驾驶方案是纯粹的黑盒,中间过程完全由AI决定,人类很难干预(也没有手写代码规则)。完全依赖数百万辆车回传的高质量视频数据强行“喂”出来的智能。

简单说,大力出奇迹。靠自己车多数据多,喂最多的数据,

区别于理想:理想还保留了VLM作为“慢思考”的监督者,特斯拉则是把所有能力都压缩进了一个大模型里。

毫无疑问特斯拉是现在最强大的模型,但就像特斯拉的逻辑真的对吗?模型数据再大几个数量级,能再次“涌现”吗?

更别说纯视觉是有物理缺陷的,摄像头是被动的,它受光线影响极大。进出隧道瞬间的致盲、大雾天、纯黑夜,摄像头就是不如激光雷达可靠。

马斯克的逻辑是,人类靠两个摄像头(眼睛)+ 大脑就能开车。如果你需要激光雷达,说明你的“大脑”(AI)还不够强。当同时用激光雷达和摄像头,一旦两者数据打架(摄像头说那是图案,雷达说那是石头),系统该听谁的?这种“融合”往往会带来巨大的噪音和计算内耗。

马斯克相信当模型足够大、数据足够多时,类似VLM理性思考(包括识别路牌、理解场景)的能力会作为一种特征,自然地在神经网络内部“涌现”出来,而不需要外挂一个语言模型。

目前看,去激光雷达在商业上是成功的因为成本低,但在极端安全上确实有短板。

那么涌现真的靠谱吗?

马斯克说当视频数据量大到一定程度,AI 学到的不仅仅是“开车”,而是物理世界的运行规律。FSD v12 在没有手写规则的情况下,学会了礼让行人、学会了绕开水坑。如果数据再大 10 倍,它可能会“涌现”出预判人类心理的能力,比如看一眼路边人的姿态,就知道他想不想过马路

目前特斯拉正在引入类似强化学习。不是死记硬背人类怎么开,而是让 AI 在世界模拟器里用真是数据无限试错,自己推导出最优解。(小鹏也是)

马斯克说单纯堆数据很难再涌现了,但是 “数据 + 算力 + 强化学习(RL)” 的组合,极有可能带来第二次涌现

重点是强化学习,那么什么是强化学习?其实还是当初AlphaGo的例子

AlphaGo Lee(第一代):学的是人类棋谱。虽然很强,但还有人类的影子。

AlphaGo Zero(第二代):已经不再看人类棋谱,构建了一个虚拟世界,只告诉它围棋规则,让它自己跟自己下棋(左右互搏)。

最后用算力加速时间,它在几天内自我对弈了千万局,自己探索,彻最后底碾压了人类冠军,而且探索出了人类几千年都没想出来的“神之一手,完完全全的超越了人类。现在人类已经没人敢说能赢AlphaGo了

特斯拉想做的,就是自动驾驶界的 AlphaGo Zero。

强化学习会让 AI 在虚拟世界里自己去试,需要用特斯拉300 万辆车回传的数据,在云端重建一个极其真实的虚拟世界模型。路面的摩擦力、光线的折射、行人的随机行为,都要和真实世界一模一样。

还需要庞大的算力加速时间,让 AI 在这个虚拟世界里,一天跑完人类一万年才能跑完的里程。AI 可以在云端把“鬼探头”撞死 100 万次,总结出绝对不撞的策略,这就是强化学习的重点

如果这套组合拳打通了,我们会看到一种像AlphaGo神之一手那样的非人能力

比如超越人类的极限操作:在高速上遇到前方车祸,人类可能会急刹车然后追尾。强化学习训练出来的 AI,可能会计算出一条极其精准的缝隙,用人类不敢做的 “漂移 + 变道” 动作瞬间避险。因为它在云端模拟过这种极限物理状态。

这300万辆车的数据不再是单纯的堆积了,而是负责提供素材虚拟构建世界

训练世界模型,只有喂了海量的真实视频,世界模型生成的“模拟场景”才能逼真到让 AI 分不清是虚拟还是现实

世界模型训练好后,真实数据会提供难题让ai去无限次强化学习

AI 不再盲目模仿车主的操作。AI 会把真是数据的这个场景扔进“世界模型”里,自己尝试 1 万种开法,真实数据提供了题目,但 AI 通过 强化学习就能自己推导出了比人类更好的答案

特斯拉现在不需要300万辆车回传所有数据(那也存不下),它只需要失败的数据

最后再真实场景下负责监考验证安全性。

新的 AI 模型会被推送到这 300 万辆车上,只运行,不控车。如果它在后台做出的判断,连续 10 亿公里都没有出事故,且比人类司机更安全。

这时候,特斯拉才敢真正把这个版本解锁给用户。

所以马斯克正在疯狂买GPU建立超算,如果马斯克赌赢了,激光雷达确实就是根“拐杖;但如果 AI 迟迟不觉醒,这根拐杖就是保命符。小鹏就是模仿特斯拉的方法构建虚拟世界强化学习训练模型

理想自动驾驶赢的概率很大!太被低估了-有驾

最后再说说Waymo和萝卜快跑

谷歌旗下的Waymo和百度的萝卜快跑的逻辑和理想、华为、特斯拉完全不是一个赛道的,甚至完全相反。

大模型车企走的是“端到端黑盒”,Waymo 和萝卜快跑走的是模块化白盒,黑盒的决策是无法解释的,白盒会要求一切是可以解释的

Waymo 和萝卜快跑把系统切得非常细:感知模块 -> 预测模块 -> 规划模块 -> 控制模块。

每个模块之间通过极其严格的数学规则连接。如果车停了,Waymo 能够精确地知道:是感知模块没看到红灯?还是规划模块算错了距离。Waymo 的逻辑是如果我不确定绝对安全,我就不动

这就是为什么 Waymo 经常被吐槽在路口卡死不动,或者被复杂的路况搞得当街停车。它宁可瘫痪,也不愿冒风险。

Waymo 要依靠昂贵的硬件和预先画好的高精地图,通过严密的数学逻辑和分层模块,实现特定区域内“万无一失”的无人驾驶。它不追求像人一样灵活,只追求像机器一样精准和不出错。但只能在地图画好的区域跑,出了这个圈就成了瞎子。因此成本其实非常高

萝卜快跑目前有2,000+辆,Waymo目前有2,500+ 辆,

3-5年内,Waymo 会过得很滋润,但长期看(5-10年),绝对会被端到端降维打击

依靠高精地图、传感器,把每一个城市的每一条路都背下来背过的地方,确实体验非常好。但背的太慢了。开一座新城需要几个月去扫图、测试。如果下大雪把路遮住,或者修路改道,它可能就傻了。

端到端不需要高精地图,不需要激光雷达,成本极低,而且瞬间就能铺满全球,这是降维打击

所以waymo和萝卜快跑目前正在尝试与端到端大模型进行融合,尝试跟uber滴滴融合,所以如果能尽快把成本降下来并铺开规模,再主打最安全、最舒适、服务最好的 Robotaxi,即使未来特斯拉华为理想满街跑,也会有一部分人愿意多花 20% 的钱坐 Waymo和萝卜快跑,因为确实更绝对安全。

最后鹿死谁手,决赛还在着呢,关注我持续跟进。让子弹飞一会儿吧

0

全部评论 (0)

暂无评论