Nature重磅研究揭示AI能力边界：‘人类最后的考试’HLE基准显示顶尖模型平均得分仅38.2%

2026年1月，《自然》（Nature）期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的突破性研究，由美国AI安全中心、Scale AI及全球50国近千名领域专家联合发起，正式推出‘Humanity's Last Exam’（HLE）专家级学术能力评估基准。该研究直面当前AI评测体系失效困境——MMLU、GPQA等主流测试中GPT-4o、Gemini 1.5 Pro等模型准确率普遍超90%，测评陷入‘满分通胀’，无法区分真实认知深度。为此，专家组历时18个月，严格筛选出2500道研究生及以上水平真题，覆盖数学证明、量子场论推导、古文字训诂、临床病理鉴别等57个细分领域，所有题目均满足三大刚性标准：唯一确定答案、需多步链式推理、答案不可通过网络检索直接获取，且14%含专业图表构成多模态挑战。

实测结果引发学界震动：GPT-5在HLE中仅获38.2%准确率，Gemini 1.5 Pro为36.7%，Claude 3.5为41.1%，无一模型突破50%阈值。更值得警惕的是，模型在‘概念迁移’类题目（如将流体力学原理类比至交通流建模）上错误率高达89%，暴露其本质仍是模式匹配而非原理掌握。研究特别指出，当前大模型的‘知识幻觉’并非偶然失误，而是缺乏因果建模导致的系统性缺陷——当问题触及知识边界的反事实推演时，模型倾向于生成看似合理但逻辑断裂的答案。

该基准的发布正重塑AI研发范式。谷歌DeepMind已宣布将HLE纳入内部模型迭代KPI，百度千帆平台同步上线HLE兼容评测模块，供企业客户验证垂直大模型的专业鲁棒性。国内教育科技公司‘智答云’据此重构医学问答系统，引入‘推理链可信度评分’机制，对每条回答标注其依据文献等级与逻辑漏洞风险，使三甲医院试用反馈的误诊咨询下降72%。长远看，HLE不仅是能力标尺，更是技术路标：它倒逼产业界从追求‘参数规模’转向深耕‘认知架构’，为AGI发展锚定以可验证推理能力为核心的全新坐标系。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

Nature重磅研究揭示AI能力边界：‘人类最后的考试’HLE基准显示顶尖模型平均得分仅38.2%

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高