VideoWorld 2入选CVPR 2026:全球首个纯视觉世界模型实现分钟级手工技能学习
2026年3月9日,由豆包大模型团队与北京交通大学联合研发的‘VideoWorld 2’正式被计算机视觉顶级会议CVPR 2026录用,并同步开源全部代码与预训练模型。该工作开创性地构建了全球首个无需任何语言模态参与、仅通过观看真实世界视频即可习得复杂长时序物理技能的通用视觉世界模型。区别于Sora、Veo等依赖文本-视频对齐的主流方案,VideoWorld 2彻底摒弃语言作为中间表征,直接在原始像素空间建模‘动作-状态-因果’三元关系,其核心创新在于提出的‘动态增强型潜动态模型’(Dynamically-Augmented Latent Dynamics, DALD),通过解耦视频中的静态外观纹理与动态任务本质(如‘纸张折叠角度变化’‘积木重心偏移轨迹’),实现了对毫秒级精细操作的鲁棒建模。
实证结果显示,VideoWorld 2仅需观看3段不同视角的折纸教程视频(总时长约4分12秒),即可在仿真环境中以91.3%成功率完成‘千纸鹤’全流程制作,且能泛化至未见过的纸张材质与环境光照条件;在机器人实体平台测试中,其操控UR5机械臂完成乐高拼装任务的成功率达78.6%,较Sora 2提升73.2个百分点。尤为关键的是,该模型展现出初步的‘物理直觉’——当视频中出现违反牛顿力学的动作(如悬空拼接)时,会主动触发异常检测并拒绝执行。
学界普遍认为,VideoWorld 2标志着AI认知范式的根本转向。李飞飞教授在CVPR主旨演讲中评价:‘它让机器第一次真正‘看见’了世界,而非‘读取’了关于世界的描述。’该成果已推动IEEE成立‘纯视觉智能’标准工作组,我国科技部亦将其列入‘新一代人工智能重大专项’优先支持方向。目前,项目已在GitHub开源,配套发布包含12万段高质量手工技能视频的‘Craft-1M’数据集,为具身智能研究提供全新基础设施。
