银河通用LDA-1B开启具身智能‘GPT-2时刻’:全域数据融合驱动跨本体动作泛化

2026-05-03 18:46 👁 阅读

具身智能长期受限于高质量、高一致性、强标注动作数据的稀缺性,虚拟仿真与真实机器人采集数据割裂、人机混合视频质量参差、动作标签覆盖率低等问题,导致模型泛化能力薄弱、训练成本居高不下。行业主流VLA(Vision-Language-Action)与世界模型两条技术路径虽各有所长,却均未突破数据利用效率瓶颈。

2026年5月1日,银河通用正式发布1.6B参数跨本体隐式世界-动作基础模型LDA-1B,其核心创新在于提出WAM(World-Action Merging)融合范式,并首次实现全域异构数据的无差别高效利用——涵盖虚拟仿真轨迹、人类第一视角视频、模糊/低帧率机器人实录、带/无动作标签原始素材等六类典型数据源,统一建模无需预清洗或格式对齐。官方实测显示,仅需1小时后训练即可完成跨本体适配,在零售分拣、家庭叠衣、工业搬运三大场景中实现端到端闭环控制。

该突破彻底重构了具身智能的数据工程范式。过去依赖远程操控采集的专家样本成本高达$280/小时,而LDA-1B使非结构化UGC、开源机器人日志、教育视频等低成本数据源利用率提升至83%,数据标注成本下降超65%。论文登顶RSS 2026(录用率仅12.7%),代码全量开源,标志着具身智能正式迈入‘规模化数据驱动’阶段。

展望未来,LDA-1B所定义的‘不挑食’数据利用范式,将加速具身模型从实验室走向产线。银河通用已联合三一重工、美团无人仓启动联合落地试点,目标在Q3实现LDA系列模型在百台级移动机器人集群中的轻量化部署。更深远的影响在于,它为构建通用物理世界操作基座(Physical Foundation Model)提供了可复用的技术底座,有望推动AI从‘理解世界’迈向‘改造世界’的关键跃迁。