阿里发布全模态大模型Qwen3.5-Omni:感官能力全面对标人类,音频理解与多模态推理超越Gemini 3.1 Pro
2026年3月31日,阿里巴巴正式发布新一代全模态大模型Qwen3.5-Omni,标志着中国大模型技术从‘单模态强’迈向‘类人感知全栈智能’的关键跃迁。该模型首次实现语音、图像、文本、视频、空间语义的统一表征与协同推理,具备接近人类的‘听觉-视觉-语言-动作’闭环能力。据阿里通义实验室披露,Qwen3.5-Omni在通用音频理解(Audio Understanding)基准测试中准确率达92.7%,显著高于Google Gemini 3.1 Pro的86.4%;在跨模态数学推理(MM-MATH v2)任务中得分提升31%,并在实时多轮对话情境下的感官一致性保持率高达98.2%。
技术架构上,Qwen3.5-Omni采用‘神经感官网关(Neuro-Sensory Gateway)’设计,将音频频谱图、图像patch、文本token与3D空间坐标统一映射至共享隐空间,并通过动态模态权重门控机制(DMG-Gate)实现低延迟模态融合。尤为关键的是,其音频子系统支持毫米级声源定位与情绪共振建模,可识别咳嗽、叹息、语速骤变等微行为信号,在远程医疗问诊、老年陪伴机器人等场景已进入POC验证阶段。
产业影响层面,Qwen3.5-Omni的商用API定价策略极具颠覆性:标准调用每百万Token仅0.2元,较上一代下降40%,且开放‘感官即服务(Sensory-as-a-Service)’模块化调用接口,允许开发者单独接入听觉理解或空间视觉模块。目前,小鹏汽车已将其集成至XNGP 4.0智驾舱,实现‘听指令即调取环视影像+语音描述障碍物三维尺寸’;浙江广电集团则基于该模型上线AI播音员‘越韵’,可同步处理方言语音输入、戏曲唱腔分析与字幕生成三重任务。业内专家指出,Qwen3.5-Omni不仅是性能突破,更重构了AI交互的范式边界——当模型能真正‘听见风声、看见光影、理解语境’,人机协作正从工具辅助迈入共感共生新纪元。