豆包团队发布VideoWorld 2:全球首个纯视觉世界模型,实现分钟级手工技能学习
2026年3月9日,字节跳动豆包大模型团队联合北京交通大学在CVPR 2026主会发表重磅成果——VideoWorld 2,全球首个无需语言监督、仅通过浏览真实世界视频即可掌握复杂长时序物理技能的通用视觉世界模型。该模型彻底摒弃了Sora、Veo等主流方案对文本描述或标签数据的依赖,回归‘视觉优先’的认知本质,呼应李飞飞教授‘幼儿无需语言即可理解世界’的核心理念。VideoWorld 2在长达60秒的手工制作视频(如折纸鹤、拼装乐高航天器、编织中国结)上进行自监督训练,通过动态增强型潜动态建模(DE-LDM)技术,将视频中纷繁的光影变化、背景干扰与人物服饰纹理等‘无关细节’与核心动作轨迹、空间构型变换、力反馈暗示等‘任务本质信号’进行数学解耦,从而提取出可泛化的技能表征。
性能验证结果令人震撼:在标准手工任务基准(HandCraft-Bench)上,VideoWorld 2对未见过的折纸步骤完成率达83.6%,较Sora 2提升72.1个百分点;对乐高积木搭建的长程规划成功率(连续完成12步无错误)达69.4%,而Veo 3与Wan 2.2在此任务上几乎完全失效(<5%)。更突破性的是,其习得的技能可跨平台迁移——模型在视频中学会的‘扭转-按压-卡扣’三步组装逻辑,能直接指导实体UR5机械臂完成真实乐高零件装配,成功率稳定在61.2%。这标志着AI技能学习正从‘仿真幻觉’迈向‘物理世界可执行’的关键拐点。
VideoWorld 2的开源不仅释放技术红利,更引发范式革命。其代码与预训练模型已在GitHub公开,支持研究者加载任意YouTube教程视频进行零样本技能蒸馏。教育领域已率先应用:华东师范大学将其嵌入师范生教学技能培训系统,AI可分析名师课堂视频,自动提炼‘提问节奏调控’‘板书空间布局’等隐性教学法;制造业中,三一重工正测试其对挖掘机液压管路检修视频的理解能力,以生成标准化SOP文档。但挑战同样严峻:模型对视频质量极度敏感,模糊、遮挡、低光照场景下性能断崖式下跌;且当前尚无法处理需触觉反馈的精细操作(如绣花、微焊)。团队透露,VideoWorld 3将融合触觉传感器数据流,向真正的多模态具身智能迈进。
