具身智能闯关端到端VLA，吉利、宁王和博世打钱-有驾

撰文 | 张祥威编辑｜马青竹

6月末，一辆特斯拉Model Y，从美国得州工厂开启自动驾驶，一路经过高速、城区等场景，独自奔向用户完成交付。

除了不会变形，汽车已越来越像汽车机器人。

另一赛道，谷歌DeepMind发布最新的本地化机器人模型，是三月发布的VLA模型Gemini Robotics的升级版，可完成系鞋带等难度动作。

这场模型范式的集体跃迁，始于去年。

去年6月，美国具身智能公司Physical Intelligence（PI）发布端到端VLA 开源模型 OpenVLA。具身智能模型开始向端到端VLA收敛。

去年10月，PI发布VLA大模型的π0版本，具有多任务、长程处理能力，可适应泛化场景。今年4月，该模型已经升级到了π0.5版本。

国内也积极跟进。一些从业者认为，中国公司可以跟美国公司站在同一起跑线，甚至更具供应链、制造和数据成本优势。

比如，美团战投领投的「自变量机器人」自成立起就押注VLA，从早期只输出动作，到现在融合输出动作、语言、视觉和思维链。

“我们的模型水平，基本上和PI、谷歌在同一水平线，因为的确在相近时间做了类似的事情。”自变量机器人创始人、CEO王潜很自信。

自动驾驶和具身智能的端到端大模型，各自狂奔，又彼此印证。

“如果还在一个个写规则代码，那是不敢碰具身智能的。”它石智航联合创始人、首席科学家丁文超说。

技术的快速迭代增加了资本市场吸引力。

据《出行百人会/AutocarMax》不完全统计，2024年全年，具身智能发生投资事件超77起，总金额约72.87亿元。2025上半年，总投资达91起，总投资金额约110.37亿元，融资频次和规模均超过去年全年。

投资方阵容呈现多元化特征，涵盖腾讯、美团、京东、蚂蚁集团、字节等科技巨头，以及宁德时代、博世、吉利、比亚迪等汽车产业链企业，美的、海尔等家电企业。

具身智能落地节奏提升，正从展示型场景（如跳舞迎宾）向无人药店、无人零售店、工厂、运输等更广泛的场景扩展。

宁德时代、博世、吉利等车业巨头参与

2025上半年，具身智能领域融资大事件不断：

宇树科技完成C轮融资交割。银河通用完成11亿元新一轮融资。它石智航成立第二个月，获得1.2亿美金天使轮融资。

吉利资本是宇树科技的C轮投资方之一，还有中国移动旗下基金、腾讯、锦秋基金、阿里巴巴、蚂蚁集团等联合领投。自2016 年成立以来，宇树科技已完成9 轮融资。

其产品在C端认知度较高，B端落地场景主要是工厂、旅游景区等。例如，H1/G1系列在蔚来工厂承担搬运任务。

吉利集团旗下工厂积极引入具身智能技术：去年极氪5G智慧工厂曾引入优必选工业版人形机器人Walker S Lite，该机器人经过21天实训，主要执行料箱搬运等任务。今年初，领克汽车成都工厂也开始引入优必选人形机器人Walker S1。

优必选是全球首个双足机器人上市公司，已经进入比亚迪等多家车企产线，公司乐观预计2026年人形机器人交付将达数千台。

银河通用，则获得宁德时代、溥泉资本（CATL Capital）等投资。

“领投方宁德时代将持续深化和公司的产业协同，为公司具身智能大模型在工业领域的技术落地与规模化应用提供关键支撑。”银河通用方面表示。

《出行百人会/AutocarMax》注意到，银河通用还与博世中国、博原资本共同成立合资公司博银合创，聚焦复杂装配、智能质检之间等高精度制造场景，研发灵巧型机器人。

银河通用聚焦技术的商业化落地，对“叠衣服”、“系鞋带”等任务兴致不高，主要面向零售和药店场景，集中培养人形机器人的移动、抓取、放置等技能，官方称之为抓取基础大模型GraspVLA，计划年内开设100家机器人超市。

“具身大模型还有很多不成熟的地方，距离什么活儿都能干可能需要五到十年。”银河通用机器人创始人及CTO王鹤说。

上文提到的自变量机器人，获得了美团战投领投、美团龙珠资本跟投的数亿元A轮融资。

融资将用于持续加速全自研端到端通用具身智能大模型，与机器人本体的同步迭代，并推动多应用场景的智慧化方案合作与落地。

据王潜介绍，以Figure和波士顿动力为代表，技术路径正从早期依赖三维视觉感知与算法控制，向端到端模型（如PI发布的新模型）演进。

有趣的是，与自动驾驶类似，具身智能的端到端，其实也有两段式（两层模型）和一段式（单层模型）之分。

比如Figure，便是用VLM做感知和规划，VLA做动作生成。自变量机器人早期也尝试过两层模型，后转向上限更高的一体式端到端单层模型。

还有一支阵容豪华的团队——它石智航，今年2月初才成立，创始团队主要来自自动驾驶领域。

创始人兼CEO陈亦伦，曾任华为自动驾驶CTO；公司董事长李震宇，曾任百度集团资深副总裁、百度智能驾驶事业群组（IDG）负责人；首席科学家丁文超，主导过华为ADS端到端决策网络研发。

进场虽晚，它石智航高举高打，选择打造通用的AWE世界模型，而非针对单一场景。

丁文超解释：“求上得中，求中得下，求下而不得。如果一开始就只做工厂工作场景，也能做得很好，但终究有局限，很容易过拟合。后面切换到生活场景，有些GAP就可能跨越不了。”

据其介绍，采用通用的世界模型打造具身智能，当场景迁移时，便不需要重写代码或调整架构。

奔向“强化学习”

无论是流水线的移动、抓取、放置动作，还是更复杂的叠衣服、系鞋带，训练具身智能大模型面临数据稀缺的挑战。

通常，行业解决方案包括：采用仿真合成数据或采集真实数据。

“仿真合成数据，需要厂商有比较好的图形学、物理仿真、物理渲染和自动动作合成管线与验证闭环的全套的基建。”王鹤说，重视并能用好仿真合成数据是其公司优势。

智元机器人，则通过机器人遥操作采集数据，由数据采集员操作机械臂重复抓取、放置等动作，通过采集上百遍数据，以提升机器人执行任务的鲁棒性。

也有由人类数据采集员穿戴PMEC执行数据采集，摆放瓷盘、瓷筷，以获取人类触觉模态数据。

“动作本身的数据并不难采，难的是采集环境变化的数据。3D空间的变化，很难捕捉和预测。”丁文超接受采访时表示，真实数据的优先级永远高于仿真合成。

有了数据，沿着端到端VLA的技术路径，下一关便是强化学习。

“光端到端还不够，还需要结合强化学习，才能让模型可信赖。强化学习也并非终点，后面还有自主学习。”丁文超说。

正如DeepSeek-R1模型，便是通过强化学习，实现了思维链能力的自主涌现。至于VLA大模型、强化学习等AI新技术，会给具身智能带来怎样的爆发力？

成功投资理想汽车的蓝驰创投，近两年在具身智能领域投资了智元机器人、银河通用等。其管理合伙人陈维广认为：

“移动互联网的价值在于连接，Agent 能更进一步，交付结果，创造出10 倍于移动互联网的价值；具身智能又进一步，完成真实世界的任务，创造的价值会是Agent 的10 倍，移动互联网市场的百倍。”

有人看到未来，有人看到泡沫。言而总之，成本向下，智能向上，场景泛化，是大趋势。

上个月，李书福和宇树科技创始人王兴兴有过一场对谈。

“AI代表一个革命性新时代的到来。它不是一项技术，相比过去传统人类社会的竞争方式、社会形态都发生了改变，重塑了人类的产业、发展及生活秩序。”李书福说。

延伸阅读：

机器人AI之困，智驾人请战

具身智能闯关端到端VLA，吉利、宁王和博世打钱

全部评论（0）

热门推荐

具身智能闯关端到端VLA，吉利、宁王和博世打钱

全部评论 （0）

热门推荐

全部评论（0）