百度千帆上线ERNIE 5.0正式版:端到端语音语言大模型重塑人机对话体验

2026-04-01 19:56 👁 阅读

2026年3月28日,百度智能云正式发布ERNIE 5.0大模型正式版,作为千帆大模型平台最新基座,其最大突破在于全球首创‘端到端语音语言统一建模’架构,彻底打破传统ASR-TTS分离式语音交互瓶颈。该模型基于全新Cross-Attention跨模态融合机制,将语音波形、文本语义、情感韵律在同一隐空间联合表征,使语音合成(TTS)不仅能复刻音色,更能精准传递‘犹豫’‘坚定’‘关切’等23种微表情级情感状态;语音识别(ASR)则能在方言混杂、背景噪音达75分贝的工业现场保持98.6%准确率。

ERNIE 5.0的‘超拟人对话’能力已在多个场景验证:在银行智能柜台中,其能根据客户语速变化自动调节应答节奏,对‘利率怎么算?’等模糊提问主动追问‘您想了解存款利率还是贷款利率?’;在教育陪练场景,其语音反馈延迟压缩至120ms,支持儿童实时跟读纠错。更关键的是,模型支持‘1句话声音复刻’——用户仅需提供5秒音频,即可生成高保真声纹,复刻成本降至¥4/次,较上一代下降80%。

百度同步升级千帆平台工具链:推出‘语音智能体开发套件’,开发者可拖拽配置情感策略、方言适配、行业术语库等模块,30分钟内完成定制化语音助手上线。目前,该技术已赋能百度‘客悦’服务营销一体化应用,在某连锁药店客服系统中,客户满意度(CSAT)提升27个百分点,重复来电率下降44%。业界分析指出,ERNIE 5.0标志着AI语音交互正从‘听得清、说得出’迈向‘懂情绪、会共情’的新纪元,为金融、医疗、教育等高敏感度场景提供了安全可靠的规模化落地基础。