Nature重磅研究揭示AI能力边界:‘人类最后的考试’HLE基准显示顶尖模型平均得分仅38.2%

2026-04-01 19:56 👁 阅读

2026年1月,《自然》(Nature)期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的突破性研究,由美国AI安全中心、Scale AI及全球50国近千名领域专家联合发起,正式推出‘Humanity's Last Exam’(HLE)专家级学术能力评估基准。该研究直面当前AI评测体系失效困境——MMLU、GPQA等主流测试中GPT-4o、Gemini 1.5 Pro等模型准确率普遍超90%,测评陷入‘满分通胀’,无法区分真实认知深度。为此,专家组历时18个月,严格筛选出2500道研究生及以上水平真题,覆盖数学证明、量子场论推导、古文字训诂、临床病理鉴别等57个细分领域,所有题目均满足三大刚性标准:唯一确定答案、需多步链式推理、答案不可通过网络检索直接获取,且14%含专业图表构成多模态挑战。

实测结果引发学界震动:GPT-5在HLE中仅获38.2%准确率,Gemini 1.5 Pro为36.7%,Claude 3.5为41.1%,无一模型突破50%阈值。更值得警惕的是,模型在‘概念迁移’类题目(如将流体力学原理类比至交通流建模)上错误率高达89%,暴露其本质仍是模式匹配而非原理掌握。研究特别指出,当前大模型的‘知识幻觉’并非偶然失误,而是缺乏因果建模导致的系统性缺陷——当问题触及知识边界的反事实推演时,模型倾向于生成看似合理但逻辑断裂的答案。

该基准的发布正重塑AI研发范式。谷歌DeepMind已宣布将HLE纳入内部模型迭代KPI,百度千帆平台同步上线HLE兼容评测模块,供企业客户验证垂直大模型的专业鲁棒性。国内教育科技公司‘智答云’据此重构医学问答系统,引入‘推理链可信度评分’机制,对每条回答标注其依据文献等级与逻辑漏洞风险,使三甲医院试用反馈的误诊咨询下降72%。长远看,HLE不仅是能力标尺,更是技术路标:它倒逼产业界从追求‘参数规模’转向深耕‘认知架构’,为AGI发展锚定以可验证推理能力为核心的全新坐标系。