阿里发布全模态大模型Qwen3.5-Omni:通用音频理解与多感官交互能力全面超越Gemini 3.1 Pro
2026年3月31日深夜,阿里巴巴集团正式发布新一代全模态大模型Qwen3.5-Omni,标志着国产大模型在感知维度上实现历史性跨越。该模型不仅延续了千问系列在文本理解与生成上的领先优势,更首次系统性整合听觉、视觉、语言与动作指令理解能力,具备接近人类的‘感官协同’推理机制。据阿里通义实验室披露,Qwen3.5-Omni支持毫秒级音频事件定位、跨语种实时语音转写与情感意图识别、动态视频帧语义解析,以及基于自然语言指令的多步图像编辑与三维场景重建。其训练数据涵盖超200万小时高质量多语种语音、15亿+图文对及470TB真实世界视频流,模型参数量未公开,但推理延迟较Qwen3.0降低42%,在MMLU-Pro、AudioScore-2K、VidBench-XL等权威基准测试中均刷新SOTA。
技术突破背后是架构层面的深度重构。Qwen3.5-Omni采用‘神经感官门控网络’(NSGN),通过可学习的模态权重调度器动态分配计算资源——例如在会议纪要场景中自动增强语音ASR分支,在电商直播分析中则提升视觉-文本对齐模块带宽。尤为关键的是,其音频理解子系统引入‘声纹-语义联合嵌入’机制,可在嘈杂环境中准确分离主讲人语音并同步提取逻辑结构,已集成至钉钉会议AI助手与淘宝直播实时字幕系统。阿里强调,该模型并非简单堆叠多模态接口,而是以‘具身认知’为设计哲学,让AI真正理解‘声音有情绪、画面有因果、文字有立场’。
产业影响已迅速显现。截至4月15日,已有超3800家企业接入Qwen3.5-Omni API,覆盖教育(如新东方AI口语教练)、医疗(平安健康语音问诊摘要)、政务(浙江‘浙里办’智能政策解读)等垂直场景。值得注意的是,其每百万Token调用成本低至0.2元,较上代下降63%,极大缓解中小企业AI落地的算力焦虑。行业分析师指出,Qwen3.5-Omni的发布,不仅压缩了Gemini系列在中国市场的替代窗口期,更将推动‘全模态即服务’(MMaaS)成为下一代云基础设施标配。随着4月起开放本地化部署许可,国产AI底层技术自主权正从‘可用’迈向‘好用’与‘敢用’的新阶段。