Figure AI启动全球最长人形机器人全自主直播:40小时物流分拣挑战引爆具身智能可信度大讨论
2026年5月17日深夜起,美国Figure AI公司位于加州某物流枢纽的实时直播画面悄然上线——三台代号为‘Bob’、‘Frank’和‘Gary’的人形机器人,在无远程接管、无预设脚本、无人工干预条件下,持续执行包裹扫码、朝向校准与传送带投放任务。截至5月18日17时,直播已连续运行超40小时,远超原定8小时挑战目标,成为迄今全球持续时间最长、完全公开、可验证的人形机器人全自主运行实况测试。
该直播并非封闭内测,而是通过X(原Twitter)与YouTube双平台同步推流,峰值观看人数突破200万。观众可实时观察机器人在光照变化、条码污损、传送带抖动、包裹堆叠偏移等真实工况下的响应逻辑与失败回退机制。尤为关键的是,Figure未启用任何‘影子模式’或后台人工兜底,所有决策均由本地部署的Mythos-3.2具身推理模型实时生成动作序列并驱动关节执行。
行业影响迅速发酵。不同于此前聚焦单点技能的演示视频,本次长周期直播首次暴露具身智能系统在‘感知—规划—执行—容错’闭环中的系统性张力:前12小时成功率稳定在92.3%,但24小时后因视觉传感器热漂移与末端力控疲劳,误放率上升至17.6%;第36小时,一台机器人因连续重复抓取动作导致肩关节微震累积,触发自主停机自检——这一行为被MIT机器人实验室评价为‘从自动化迈向自治化的标志性临界点’。
更深远的影响在于信任范式的迁移。多家头部物流企业已暂停AI分拣招标流程,转而联合IEEE发起《具身智能系统可信运行白皮书》紧急编制;欧盟AI办公室于5月18日中午发布临时指引,建议将‘连续无干预运行时长’纳入高风险AI系统合规评估核心指标。中国工信部同日透露,正在修订《智能机器人安全评估规范》,拟新增‘长时自主稳定性压力测试’强制条款。
未来展望方面,Figure CEO Brett Adcock在直播间隙连线中明确表示,下一阶段将开放Mythos-3.2的推理日志API接口,邀请全球研究者共同分析40小时原始行为数据流——此举或将催生首个开源具身智能‘失败模式图谱’。业内普遍认为,当‘能跑多久’取代‘能做什么’成为技术比拼新标尺,具身智能正从实验室炫技迈入产业信用重建的关键拐点。