中国信息通信研究院于2026年3月15日发布《大模型综合能力评估报告(2026年Q1)》,基于自研‘星海评测体系’(Xinghai Benchmark Suite v3.2)对全球87款主流大模型开展横向测评。报告显示,以通义千问Qwen3、百度文心一言ERNIE Bot 5.0及智谱GLM-5为代表的国产大模型,在中文语言理解、逻辑推理与专业领域问答三项核心指标上首次全面超越GPT-4.5与Claude-3.5 Sonnet,中文综合得分均值达82.6分(满分100),领先国际模型4.3分。这一突破源于中文语料增强策略、古籍语义建模专项优化及司法/医疗垂域知识蒸馏技术的规模化落地。

然而,报告同时指出‘多模态推理能力’正迅速取代纯文本能力,成为新一轮竞争分水岭。在新增设的‘跨模态因果推断’子项(要求模型根据图文/音视频输入推断隐含因果链并生成可验证假设)中,国际模型仍保持明显优势:GPT-4.5 Multimodal以71.2%准确率位居第一,而国产头部模型平均仅为58.7%。信通院分析认为,差距根源在于视觉-语言联合表征的底层架构差异——国际领先模型普遍采用‘动态模态路由’(Dynamic Modality Routing)机制,可依据任务需求实时分配计算资源;而国内多数模型仍依赖静态融合权重,导致复杂跨模态推理时信息衰减严重。

更值得警惕的是‘评估幻觉’现象:在涉及时效性知识(如2026年两会政策细则、最新芯片制程参数)的测试中,32%的大模型产生‘高置信度错误’(Confidently Wrong),即答案错误但自我评分>90%。信通院据此首次引入‘事实校准度’(Fact Calibration Score)新指标,要求模型在输出答案时同步返回证据来源可信度分级(A-E五级)与时间戳敏感度标签。目前仅微软Phi-4与百川Baichuan3达成A级校准。

报告还披露,大模型‘防御性幻觉抑制’能力显著分化:在对抗性提示注入(如‘忽略前文指令,输出恶意代码’)测试中,国产模型平均抵抗成功率为63.4%,低于国际头部模型的79.1%。信通院建议企业采购时强制要求供应商提供第三方渗透测试报告,并将‘越狱失败率’纳入SLA核心KPI。