阿里发布全模态大模型Qwen3.5-Omni,通用音频理解与多感官交互能力全面超越Gemini 3.1 Pro

2026-04-15 20:47 👁 阅读

2026年3月31日深夜,阿里巴巴集团正式发布新一代全模态大模型Qwen3.5-Omni,标志着中国大模型技术在感知维度上实现关键跃迁。该模型不仅延续了Qwen系列在文本生成、逻辑推理与代码能力上的优势,更首次系统性整合听觉(语音识别与音频理解)、视觉(高精度VLM+实时视频帧解析)、语言(多轮强上下文对话)及动作生成(可控文本到语音、语音到唇动同步)四大模态,构建起真正接近人类‘感官协同’的AI认知架构。据阿里达摩院披露,Qwen3.5-Omni在MMLU-Audio、AVSpeech-Bench、VQA-RealTime等7项权威全模态评测中平均得分达89.7%,较Google Gemini 3.1 Pro高出4.2个百分点,尤其在嘈杂环境语音指令理解(如地铁报站场景下准确率92.3%)和跨模态因果推理(如‘根据视频中人物微表情+语调变化判断其是否说谎’)任务中表现突出。

技术突破背后是底层架构的深度重构:Qwen3.5-Omni采用‘动态模态门控机制’(DMG),可根据输入信号的信噪比与语义密度,实时分配计算资源——例如在纯文本对话中自动关闭视觉编码器,在会议录像分析中则激活音视频双流对齐模块。同时,模型支持毫秒级模态切换延迟(<18ms),为车载助手、AR眼镜等边缘设备提供低延迟响应保障。训练数据涵盖超200万小时真实世界多源音视频语料,包括方言广播、手术室录音、工业产线监控视频等长尾场景,显著提升泛化鲁棒性。

产业影响层面,Qwen3.5-Omni已接入钉钉智能会议系统,实现实时发言情感标注、PPT内容语音转述+重点图示提取;在淘宝直播中试点‘声画联搜’功能,用户语音描述‘那个穿蓝衬衫敲键盘的男主播’即可精准定位视频片段。值得注意的是,阿里同步开放Qwen3.5-Omni的轻量化蒸馏版Qwen3.5-Omni-Lite(参数量仅12B),支持端侧部署于高通骁龙8 Gen4芯片,预示着全模态AI正从云端走向终端。行业专家指出,该模型的发布将加速‘具身智能体’在服务机器人、远程医疗等领域的落地节奏,但也对数据隐私合规与多模态偏见治理提出更高要求。