阿里通义发布影视级多模态配音大模型Fun-CineForge,正式开源重塑内容生产范式
2026年3月16日,阿里通义实验室正式开源全球首个影视级多场景配音多模态大模型Fun-CineForge。该模型突破传统TTS技术在情绪张力、口型同步、角色一致性及声场空间感四大维度的长期瓶颈,标志着AI语音从‘可听’迈向‘可信、可演、可沉浸’的新阶段。Fun-CineForge采用‘音画联合编码器+情感条件扩散解码器’双轨架构,支持输入视频帧序列、剧本台词、角色设定(含性格标签与关系图谱)及导演注释(如‘压抑中带讽刺’‘喘息加快’),自动输出符合电影工业标准的WAV/ADM格式音频,已通过国家广电总局AIGC内容质量评估体系三级认证。
技术实现上,Fun-CineForge创新引入‘唇动逆推约束机制’:通过视觉模块反向解析目标人物口型运动轨迹,并将其作为声学生成的硬性约束条件,使配音口型匹配误差控制在±1.2帧以内(行业平均为±5.8帧);同时构建覆盖127种细分情绪状态的‘表演向量空间’,支持在单句中实现情绪渐变(如由平静→隐忍→爆发),避免机械式情绪切换。目前模型已适配主流动画制作管线,可在Blender、Toon Boom Harmony及国产引擎‘绘影’中直接调用插件,实测单集22分钟动画配音周期由传统7人团队14天压缩至2名导演+1台服务器48小时。
开源策略引发行业广泛关注。Fun-CineForge以Apache 2.0协议开放全部权重与训练代码,配套发布包含5000小时专业配音师标注的‘华语影视语料集CineVoice-5K’,涵盖古装、科幻、悬疑等12类题材及方言变体。业内分析认为,此举将加速中小动画工作室技术平权,但亦倒逼配音演员向‘AI导演+声音策展人’角色转型——需精通提示词工程、情绪参数调节与最终艺术把关。长远看,该模型或成为AIGC短剧、AI漫剧备案审核中的‘声纹合规性’技术锚点,为即将于4月1日生效的《AI漫剧管理暂行办法》提供底层支撑能力。
