文丨王海璐
小鹏研发 5 年的 “图灵” 芯片终于量产。
6 月 11 日,小鹏发布新一代技术架构,“图灵” 芯片首次上车,三颗一起,搭载于 25 万级别的 SUV 小鹏 G7 上,有效算力达 2200 Tops。
G7 有两个版本,3 颗图灵芯片的是 Ultra 版。除此之外,G7 还有一个 Max 版,基于英伟达双 Orin-X 芯片,算力为 508 Tops。
这也是小鹏目前两个主要的智能辅助驾驶平台。不久前上市的 Mona Max 版同样基于英伟达双 Orin 芯片。另外,小鹏还有一个低算力的 Plus 版,仅在 Mona 上保留。
与市场上的主流方案相比,小鹏图灵平台的算力 “遥遥领先”。
同等算力规模的车型,目前只有 80 万级别的蔚来 ET9,搭载两颗蔚来自研的神玑 NX9031 芯片,单科 1016 Tops。
但蔚来的主算法方案基于单科神玑芯片、或四颗英伟达 Orin-X,算力在 1000 Tops 规模;尊界 S800 搭载的华为 MDC 810 平台,算力为 400 Tops;理想 AD Max 平台今年切换到英伟达 Thor-U 芯片,算力约为 700 Tops。
短期内可能会超过小鹏的,恐怕只有特斯拉的下一代技术平台 AI 5,预计于今年底发布,明年量产。小鹏内部判断,其算力规模可能在 2000-4000 Tops。
小鹏想和特斯拉实现同等的辅助驾驶体验,在硬件平台上首先不能落后。
未来的 AI 汽车究竟需要多少算力?何小鹏说,现在还看不到尽头。他可以看清的是,算力是未来衡量 “AI 汽车” 的第一标准,也是通往 L4、L5 的必经之路。
“也许将来有 1 万、数万 Tops 的算力,完全有可能。”何小鹏说。
自研芯片,不是为了降本
蔚来创始人、CEO 李斌说,自研芯片会给每辆车带来 1 万元的成本优化。但他没有说过,对成本的测算是以多大销售规模为基准。
何小鹏和很多人交流过这个问题,得到的答复是:每年 100 万片起。
100 万片,放在消费电子行业很容易做到,但在汽车行业不是一个小数目。2024 年,特斯拉在全球销售了不到 200 万辆车。
这还不包括前期巨额的芯片研发费用,和研发失败的风险。
2022 年,小鹏曾和一家 “全球著名” 的公司合作,“完成芯片里面某一个能力”,何小鹏说。越开发,越觉得能力不足。最后,小鹏把核心模块推翻,“内部全部重写”,为此损失了数亿元人民币。
小鹏自研芯片,是为了提高有效算力,实现软硬件的协同进化。公版芯片要兼顾不同行业的需求,往往把芯片做得更加通用化。对于辅助驾驶系统而言,存在大量的算力浪费。且算力越大,浪费越多。
自研芯片,可以根据算法设计关键参数。比如小鹏的图灵芯片,针对机器人、汽车和飞行汽车的需求定制,包括 40 核处理器,单颗最多能跑 300 亿参数的本地模型,拥有 2 个独立的图像 ISP。何小鹏说,1 颗图灵芯片,相当于 3 颗英伟达 Orin-X 的有效算力。
小鹏现在还在不断优化适配,争取做到 “1 颗顶 4 颗”。
去年,图灵芯片还没流片的时候,何小鹏就开始琢磨,在车上放多少算力合适。
放 1 颗,相当于英伟达 Thor-U 的算力;放 2 颗,能领先一段时间;放 3 颗,他认为效果会 “超出想象”。
芯片之间的横联是一大挑战。因为任务很难分解,这会导致系统效率低。蔚来的 Banyan 平台搭载 4 颗英伟达 Orin-X 芯片,在算力打通上也遇到很大的挑战。何小鹏说,小鹏可以做到用两颗芯片跑一个 VLA 模型(Vision Language Action,视觉语言动作模型)。
更大的车端算力不仅能够提高系统的能力上限,更重要的是提升系统的下限,做到更好的安全性。何小鹏举了个例子:现有车端小模型的运行帧率大概是一秒钟 3 帧、5 帧,而更大的算力可以支撑模型一秒钟运行 10 帧-30 帧,时延更短。
“看起来开的效果一样,但是安全级别完全不同。”何小鹏说。
在车上跑一个更大的模型
小鹏图灵平台的 3 颗芯片中,有两颗用于跑辅助驾驶系统的 VLA 模型,算力为 1500 Tops。还有一颗跑 VLM 模型(Vision-Language Model,视觉语言模型),帮助车理解物理世界,提升人车交互的体验,主要用于智能座舱。
何小鹏说,G7 是第一款 “L3 级算力的 AI 汽车”。 “AI 汽车” 有两个评判标准:第一,有效算力在 2000 Tops 以上;第二,在本地部署 VLA+VLM 模型。
他将智能辅助驾驶技术的发展分为三代:第一代技术的车端算力大概 30-100 Tops,算法是工程师编写的规则,能做好高速导航辅助驾驶(NOA)功能;第二代的算力大概 500-700 Tops,能在车端跑一个 “微模型”,实现城市 NOA 等高级别的辅助驾驶功能,相当于今天很多车企的 Max 版本。
第三代技术,他认为是在车端部署更大的算力、跑更大的模型,将 “大脑” 和 “小脑” 耦合起来,像机器人一样。
何小鹏认为,今天的智能汽车上跑的微模型只是 “小脑”,“大脑” 在云端。但车和云端交换信息存在延时,受到网络环境的影响,且在中国以外的区域不可用。
而小鹏正在开发的 “大脑 + 小脑 VLA-OL(Vision Language Action — Online Reforcement Learning)模型”,完全在本地运行,不受网络环境限制,因此可在全球快速部署。
OL 的意思是,具备强化学习的能力。这也是小鹏的技术方案与现有 VLA 模型相比最主要的区别。
为了研发这个模型,小鹏从去年开始搭建了一个总算力为 10 EFLOPS的“云端模型工厂”,用来支持基座模型的预训练、后训练、模型蒸馏、车端模型训练等任务。
在 6 月 12 日的 CVPR 会议上,小鹏世界基座模型负责人刘先明表示,小鹏持续向模型 “投喂” 更大规模的训练数据,通过训练 10 亿、30 亿、70 亿、720 亿等多个参数的模型,验证了规模法则(Scaling Law)在自动驾驶 VLA 模型上的持续生效。也就是说,模型的参数越大、学习的数据越多,性能越强。
目前主流的 VLA 模型直接在车端训练,参数量在 10-20 亿之间。
未来,他说小鹏将通过蒸馏小模型的方式,将模型部署到车端。通过不断地强化学习训练,他认为基座模型会进化出 “媲美甚至超越人类的自动驾驶技术。” 该技术同时也适用于小鹏的 AI 机器人。
但这一技术方案并不会在 G7 上市时立即交付。把模型的能力做好还需要一个很长的过程。何小鹏说,软件研发要一步一步来。第一步可能只能做到 20 分。 6 到 9 个月之后,做到 60 分。
“从 60 分到 90 分,可能可以干三年。” 何小鹏说。
全部评论 (0)