阿里发布全模态大模型Qwen3.5-Omni,通用音频理解与多模态交互全面超越Gemini 3.1 Pro
2026年3月31日深夜,阿里巴巴正式发布新一代全模态大模型Qwen3.5-Omni,标志着国产大模型在感知维度上实现历史性跨越。该模型首次系统性整合听觉、视觉、语言与动作生成能力,具备接近人类的‘感官协同’推理机制——不仅能实时解析复杂环境音(如婴儿啼哭中的情绪分层、工业设备异响频谱识别),还可同步处理视频流中的微表情变化与语音语义意图,并生成符合上下文逻辑的多模态响应。据阿里通义实验室披露,Qwen3.5-Omni在MMLU-Audio、Video-MATH、AV-Bench等12项国际权威评测中均刷新SOTA,其中在通用音频理解任务上准确率达92.7%,较Gemini 3.1 Pro高出5.3个百分点。
技术架构层面,Qwen3.5-Omni采用‘双通路跨模态对齐’(Dual-Path Cross-Modal Alignment)设计:底层共享的MoE稀疏编码器统一表征多源信号,上层则通过动态权重门控机制,在对话、创作、控制等不同任务间自主切换模态融合策略。尤为关键的是,其音频理解模块引入自监督时频掩码重建预训练,仅用1/4标注数据即达成同等性能,大幅降低垂域适配门槛。
产业影响已迅速显现:国家广电总局正联合阿里部署该模型于AI内容审核平台,实现实时识别短视频中的违规声纹+画面语义耦合风险;在医疗领域,浙大二院已接入测试版,用于手术室环境音异常预警与术中语音指令多轮确认。值得注意的是,Qwen3.5-Omni支持端云协同部署,已在高德地图AR导航、天猫精灵Pro等终端完成轻量化适配。业内专家指出,此次突破不仅改写多模态模型性能基准,更将加速‘具身智能’从实验室走向消费级场景,预计2026年内将催生超200个行业定制化智能体应用。