蚂蚁灵光App上线‘体验世界模型’功能:全球首个移动端可交互世界模型落地,手机秒级生成60秒3D世界

2026-04-30 17:26 👁 阅读

2026年4月28日,蚂蚁集团正式在其旗舰AI助手App‘灵光’中上线‘体验世界模型(World Model Experience)’功能,成为全球首个在消费级智能手机上实现可交互、长时序、高一致性3D世界生成的商用产品。用户仅需上传一张静态图片(如咖啡馆实景照),App即可在3秒内生成一个支持60秒自由探索的动态3D场景,并通过手机屏幕触控或外接手柄摇杆进行第一人称漫游——视角旋转、前后平移、俯仰缩放均实时响应,且光照、阴影、材质反射等物理属性保持全程连贯。该功能基于蚂蚁自研的‘Atlas-Ω’轻量化世界模型,参数量压缩至传统方案的1/18,却在Mujoco-Bench基准测试中达到92.7%的跨任务泛化准确率,刷新移动端世界模型性能纪录。

技术突破背后是三大底层创新:首先是‘时空令牌蒸馏(ST-TD)’架构,将视频帧序列与空间拓扑关系联合编码为紧凑令牌流,使60秒3D推演内存占用降至4.2GB以下,适配主流旗舰机型;其次是‘端云协同推理引擎’,关键物理仿真(如布料飘动、液体晃动)在端侧完成,复杂光照计算则由阿里云‘飞天·穹顶’集群毫秒级回传,实现‘零感知延迟’;最后是‘语义锚定增强’机制,用户语音指令(如‘把窗台上的绿植放大两倍’)可直接修改已生成世界的局部结构,无需重新渲染全局。

这一落地不仅改写AI终端竞争规则,更催生全新应用场景。文旅行业已接入该能力,游客扫描敦煌壁画即可步入三维复原的盛唐洞窟;教育领域推出‘历史现场’模块,学生拍摄课本插图即可穿越至秦始皇陵地宫或莱特兄弟首飞现场;而最深远的影响在于降低世界模型使用门槛——过去需万元级工作站+专业3D师数日调试,如今高中生用千元机即可完成创作。业内预计,2026年内将有超200款国产App集成该SDK,推动‘世界模型普惠化’从概念走向现实。