银河通用LDA-1B开启具身智能‘GPT-2时刻’:跨本体动作大模型实现全域数据无偏利用
2026年5月1日,具身智能头部企业银河通用正式发布1.6B参数的跨本体「隐式世界-动作基础模型」LDA-1B,该成果登顶机器人顶会RSS(Robotics: Science and Systems),录用率仅7.3%(210篇/2860+投稿),并全面开源代码与训练框架。此举被业界普遍视为具身智能领域里程碑式的突破——继GPT-2打破高质量标注数据依赖后,LDA-1B首次在动作智能层面实现‘数据不挑食’范式,标志着具身AI正式迈入规模化预训练新纪元。
此前,具身智能长期受困于数据割裂:仿真数据与真实机器人轨迹难以对齐;人类示范视频、模糊影像、无标注原始采集流互不兼容;不同本体(轮式、双足、机械臂)需独立建模,导致研发成本高、泛化能力弱。主流VLA(Vision-Language-Action)模型如Physical Intelligence π0.7虽具强泛化性,却依赖大量专家样本;英伟达DreamZero的世界模型虽可零样本适配,但对物理先验与实时闭环控制支持不足。LDA-1B通过自研WAM(World-Action Merging)融合架构,在统一表征空间中联合建模环境动态演化与动作策略生成,首次实现虚实共融、人机混合、质量参差、有无动作标签等异构数据的端到端有效利用。
技术实现上,LDA-1B摒弃传统监督微调路径,采用‘弱监督驱动的隐式世界建模’范式:以对比学习拉近相似动作轨迹在隐空间距离,以时序一致性约束保障跨帧动作逻辑连贯,并引入轻量级物理引擎反馈作为辅助信号,无需显式动力学建模即可提升动作合理性。官方实测显示,仅需1小时后训练,模型即可在未见过的UR5e、Boston Dynamics Spot及国产灵巧手平台上完成货架分拣、衣物折叠、重物码放等任务,成功率较前代提升41%,部署周期压缩至3天内。更关键的是,其数据利用率提升达3.2倍,大幅降低高质量机器人数据采集与标注成本。
LDA-1B的发布正推动具身智能从‘实验室演示’迈向‘产线级部署’。零售、家庭服务与工业物流三大场景已启动联合验证,其中某头部仓储服务商基于LDA-1B开发的自主搬运Agent,单机日均作业量提升2.8倍,人力替代率达67%。展望未来,随着多模态感知、神经符号推理与边缘实时控制的进一步耦合,LDA系列有望向‘长程自主任务代理(Long-Horizon Embodied Agent)’演进——即在复杂动态环境中持续运行超8小时并自主分解、调度、纠错与协同。这不仅是技术路线的升级,更是AI从‘理解世界’迈向‘改造世界’的关键跃迁。