上周末,特斯拉迈阿密门店的“Autonomy Visualized”活动现场,Optimus人形机器人在递送一瓶水时,因手部动作过快导致水瓶脱手。就在它试图恢复平衡的瞬间,身体后仰,双手却突然抬至面部,做出一个清晰的抓握动作——仿佛在摘下一顶并不存在的VR头显。下一秒,它重重摔倒在地。这段视频迅速在社交媒体发酵,引发全球关注。人们讨论的焦点,早已不是机器人是否该摔倒,而是那个“摘空气头显”的动作:这真的是AI自主运行吗?还是背后有人在操控?
这一幕之所以刺眼,是因为它与人类远程操控VR设备时的本能反应如出一辙。当操作员通过VR头显控制机器人,一旦系统失控或画面剧烈晃动,第一反应往往是下意识摘下头显。而Optimus在无任何头部装置的情况下复现这一动作,被科技媒体Electrek称为“彻底打破了特斯拉精心营造的自主幻觉”。尽管特斯拉尚未回应,但公众的质疑声浪已无法平息。
特斯拉对Optimus的自主性承诺,向来高调。自2021年首次发布概念以来,马斯克多次强调,Optimus将完全依赖AI和视觉系统运行,不使用激光雷达,也不依赖动作捕捉或远程操控。2025年,Optimus V2.5在NeurIPS大会上展示出22自由度的灵巧手,能完成弯曲、挥手等精细动作;同年,它在实验室中实现自主慢跑与充电,标志着其具备“感知-决策-行动”闭环能力。更早前,它已进入特斯拉工厂和洛杉矶餐厅执行送餐、分拣等任务。这些进展本应是技术成熟的证明,但一次“露馅”动作,让所有高光时刻蒙上阴影。
问题在于,公众并非首次对人形机器人的“自主性”产生怀疑。波士顿动力的Atlas曾因完成复杂任务而被广泛认可为“真正自主”,其背后是大型行为模型(LBM)支持下的端到端决策,甚至能在被干扰后自主纠正动作。相比之下,Figure AI在2025年高调宣称其Figure 03“无遥控”,却因演示环境过于理想、动作固定而被批为“精心设计的表演”。小米CyberOne等国产机器人虽未直接被指遥控,但公众普遍质疑“机器人肚子里是否藏着人”,根源在于行业过往的“剪辑门”“吹牛门”已严重透支信任。
技术专家指出,Optimus的“摘头显”动作极可能是远程操控的“行为指纹”。在AI系统中,机器人不会理解VR头显的存在,更不会模拟摘除动作。这种高度拟人化的应急反应,只能来自后台操作员的无意识投射。越疆科技、川崎重工等企业已成熟应用VR远程操控技术,操作员的每一个细微动作都会被完整复现。因此,这一动作不是程序错误,而是人机同步系统的“露馅”证据,揭示了当前人形机器人技术中AI自主与人工干预的模糊边界。
这场风波的影响,远超一次技术失误。它暴露了公众对高科技演示的普遍不信任:当企业只展示“完美视频”,却不允许现场检验、不公开失败数据时,再炫目的表演也难逃“作秀”质疑。波士顿动力通过发布未剪辑的抗干扰测试建立可信度,而特斯拉若继续沉默,或将失去关键的信任窗口。更深层看,人形机器人要真正进入家庭与工厂,必须跨过“信任门槛”——不是靠口号,而是靠可验证的透明度。
未来,Optimus的走向将取决于特斯拉如何回应。是承认部分场景仍需远程辅助,还是拿出更硬核的自主证据?行业正等待答案。可以确定的是,人形机器人的竞争,已从技术参数转向公信力较量。正如业内所言:“真正的自主,不是视频里不摔倒,而是在菜市场被人推一把后,还能稳稳把菜送回家。” 特斯拉若想让Optimus成为“比人类更可靠”的存在,光靠AI还不够,还得赢回人心。
全部评论 (0)