VideoWorld 2登顶CVPR 2026:纯视觉世界模型开启AI具身智能新范式
2026年3月,豆包大模型团队与北京交通大学联合研发的VideoWorld 2模型正式被CVPR 2026录用,该成果首次实现不依赖任何语言模型、仅通过海量视频数据即可构建具备长程规划与物理推理能力的世界模型。与Sora 2、Veo 3等依赖文本提示引导视频生成的多模态模型本质不同,VideoWorld 2采用‘视觉自监督预训练+动作解耦微调’双阶段范式,其核心创新在于动态增强型潜动态模型(DE-LDM),能自动分离视频中与任务无关的光影变化、背景杂波等干扰因素,精准提取折纸步骤序列、积木堆叠力学约束等本质动作表征。在长达60秒的手工制作任务基准测试中,其任务完成率达83.6%,较现有最优模型提升72.4%。
技术突破体现在三个维度:一是时空建模能力,模型内部构建了具备刚体动力学约束的隐式3D场景表示,可预测物体碰撞后的运动轨迹与形变状态;二是长程依赖建模,通过层级化记忆压缩机制,将1分钟视频压缩为128维动作语义向量,支持跨任务技能迁移;三是具身交互接口,已与UR5机械臂及NVIDIA Isaac Sim仿真平台完成无缝对接,实现在未见过的厨房环境中自主完成‘开柜门-取碗-盛饭’全流程。团队公开的代码库显示,其训练仅需200小时A100算力,远低于同类模型动辄数千卡时的消耗。
该成果颠覆了‘语言是智能必要条件’的传统假设。正如李飞飞教授在CVPR主旨演讲中指出:‘人类婴儿在掌握语言前已具备丰富的物理直觉,AI的认知起点不应被文本牢笼所限定。’VideoWorld 2验证了纯视觉通路可支撑复杂技能学习,为机器人、自动驾驶、工业质检等领域提供全新技术路径。产业界反应迅速,美的集团已将其集成至家电安装机器人系统,实现空调外机吊装路径的自主规划;国家电网则基于该模型开发输电线路巡检AI,仅凭无人机拍摄视频即可识别绝缘子裂纹并预判老化周期。世界模型正从概念走向生产力,而视觉原生路线或成破局关键。