美团开源LongCat-AudioDiT:波形潜空间建模刷新音色克隆SOTA
2026年4月1日,美团AI研究院正式开源LongCat-AudioDiT音频生成模型,提出全球首个基于波形潜空间(Waveform Latent Space)的扩散Transformer架构,在音色克隆任务中实现突破性进展。该模型摒弃传统梅尔频谱图(Mel-spectrogram)作为中间表示的做法,直接在原始音频波形(48kHz采样率)的压缩潜空间内进行去噪建模,结合自适应时序掩码(Adaptive Temporal Masking)与谐波-噪声分离注意力(Harmonic-Noise Separation Attention),使克隆语音在音色保真度(VOCAL-Score达92.7)、情感一致性(EmoMatch率达88.4%)及跨语种泛化能力(中英日韩四语种零样本迁移误差<3.2dB)三项指标上全面刷新SOTA。
技术突破源于对语音本质的重新解构。研究团队发现,梅尔频谱图在压缩过程中丢失大量相位信息与瞬态细节,导致克隆语音缺乏‘呼吸感’与‘颗粒感’。LongCat-AudioDiT通过Learnable Wavelet Encoder将原始波形映射至8维潜空间,该空间既保留基频周期性特征,又编码喉部肌肉振动微颤、气流湍流噪声等生理细节,使模型能精准复现真人说话时的‘声带边缘振动’与‘软腭开合节奏’。实测显示,其生成的客服语音在ASR识别准确率(98.1%)与人类主观评分(MOS 4.62/5.0)上均超越真人录音基线。
产业应用已快速落地:美团外卖语音助手已集成该模型,支持骑手方言语音指令实时转译与个性化应答;大众点评‘AI导游’功能利用其跨语种克隆能力,为海外游客提供粤语、闽南语、潮汕话等地方方言导览;更值得关注的是,其开源版本已获国家广电总局‘智能语音内容安全实验室’认证,成为首个通过《生成式AI语音内容安全评估规范》全部27项检测的开源模型。这标志着中国AI在音频生成这一关键赛道,已从‘可用’迈向‘可信可用’的新阶段。