“最朴素”的方法,训练最前沿的机器人:特斯拉Optimus背后的数据采集真相

据《Business Insider》近日报道,特斯拉正通过一支规模庞大的数据采集团队,为旗下Optimus人形机器人提供关键训练素材。这些员工每天重复数百次拿杯子、擦桌子、拉窗帘等日常动作,只为教会机器人“像人类一样行动”。

真实数据:机器人训练的“黄金标准”

与许多依赖动作捕捉服或遥控操作的同行不同,特斯拉选择了一条更为“笨拙”却更贴近现实的路径:仅靠摄像头记录人类行为。每位数据采集员在8小时轮班中,需佩戴头盔与重达数十磅的背包,其上搭载约5台摄像头,从多角度全程记录动作细节。此外,工厂环境中还布设了固定摄像头,形成全方位视觉覆盖。

这一策略的转变发生在2024年6月——Optimus项目负责人米兰·科瓦奇(Milan Kovac)离职后,特斯拉明确告知团队:“如果不使用动作捕捉服,数据采集的规模会更大。”这意味着,公司更看重数据的广度与真实场景的还原度,而非高精度但昂贵且受限的动作捕捉系统。

然而,这种“朴素”方法的代价不小。多名员工透露,沉重的背包导致背部与颈部劳损,长时间佩戴头显设备甚至引发晕动症。在加州弗里蒙特工厂,数据采集员不仅要完成指定动作,还需在真实产线环境中整理零件、操作传送带,体力消耗巨大。鼎盛时期,该团队人数超过100人,构成了Optimus背后一支“沉默的基石”。

“最朴素”的方法,训练最前沿的机器人:特斯拉Optimus背后的数据采集真相-有驾

马斯克的宏愿与数据底座

这一切的背后,是埃隆·马斯克对人形机器人未来的宏大构想。在2025年第三季度财报会议上,他宣称特斯拉将实现年产100万台Optimus的目标,并预测“人形机器人业务未来将占特斯拉总价值的80%”。要实现这一愿景,高质量、大规模的真实行为数据不可或缺。

业内普遍认为,真实数据是提升机器人泛化能力的“黄金标准”。华创证券指出,多模态真实数据(如视觉、动作、环境交互)能显著增强机器人的环境感知与多任务处理能力。然而,真实数据采集成本高、格式杂、效率低;仿真数据虽可批量生成,却难以应对现实世界的复杂性与不确定性。

因此,“虚实结合”成为当前行业主流方案。国地共建人形机器人创新中心副总经理刘宇飞表示,全国已有8个省市布局虚实融合训练场。IDC中国研究经理李君兰也判断,未来机器人训练将基于“海量高仿真物理数据 + 高质量真实采集数据”,构建坚实的数据底座,以加速智能泛化能力的跃升。

据Research Nester最新报告,全球数据采集系统市场规模将在2025年突破24亿美元,2026年达25.1亿美元,并预计在2035年增长至39.8亿美元,2026–2035年复合年增长率达5.2%。这一增长,正由人形机器人、自动驾驶、工业自动化等前沿领域强力驱动。

从人力到AI:训练方式的未来演进

尽管当前仍依赖人力采集,但特斯拉已在探索更智能的替代路径。公司近日宣布,正在自研“世界模型”(World Model)中训练Optimus。所谓世界模型,是一种能够模拟物理规律与环境动态的AI系统,可让机器人在虚拟空间中进行无限次试错学习,再将经验迁移到现实。

东吴证券分析指出,目前行业普遍采用世界模型、遥操作、仿真迁移等方法,但均存在局限——难以获得真正的通用泛化能力。具身智能(Embodied AI)的学习范式仍处于探索阶段,如何让机器人在开放、动态、不可预测的真实世界中自主学习,仍是未解难题。

在此背景下,特斯拉当前的“人力采集+摄像头记录”模式,或许正是通往下一代AI训练的必经之路。它既是对真实世界复杂性的尊重,也是对数据质量底线的坚守。

Optimus的每一步行走、每一次抓取,背后都是数百小时人类重复动作的凝练。在算法与算力之外,机器人智能的真正跃迁,仍需扎根于最朴素的人类经验。正如一位数据采集员所说:“我们不是在表演,我们是在教机器人如何生活。”而这,或许正是具身智能时代最真实、也最动人的起点。

0

全部评论 (0)

暂无评论