Nature发布‘人类最后的考试’基准：顶尖AI在专家级学术问题上集体失分，揭示能力天花板

2026年1月，《自然》（Nature）期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的突破性研究，正式推出‘Humanity's Last Exam’（HLE）——一套专为‘考倒AI’而设计的专家级学术能力基准。该研究由美国AI安全中心、Scale AI联合全球50国近千名学科专家历时18个月共建，涵盖数学、粒子物理、结构生物学、法哲学、比较文学等52个前沿领域，最终精选2500道题目。所有试题均需研究生高阶知识、跨概念深度推理或原创性建模能力，且经预测试严格筛选：仅当GPT-4o、Gemini 1.5 Pro、GPT-5等SOTA模型答对率低于随机猜测水平时，题目方被纳入终版题库，确保其真正构成AI能力‘压力测试’。

测试结果引发学界震动：在整体2500题中，表现最佳的GPT-5仅取得38.2%准确率，远低于人类领域专家平均92.7%的通过率；在需要构建新数学证明的‘代数拓扑’子集，所有模型准确率趋近于零；涉及多步反事实推演的历史哲学题，模型普遍陷入循环论证或价值预设谬误。研究团队强调，HLE并非否定AI进步，而是揭示当前技术的根本局限——大模型仍缺乏对学科‘认知脚手架’（如数学公理体系、历史因果链、法律权责框架）的内化理解，其答案多源于统计关联而非原理掌握。

该基准已迅速被MIT、DeepMind、中科院自动化所等机构采纳为AGI研发‘校准标尺’。其深层影响在于推动技术范式转向：产业界正加速布局‘小而深’的领域认知模型（如‘量子化学专用推理引擎’），学术界则重启符号主义与神经网络融合研究。正如论文作者所言：‘当试卷不再能区分AI优劣时，我们造了一张新试卷；当新试卷让所有AI不及格时，我们终于看清了通往真正智能的崎岖山路。’HLE不仅是一份成绩单，更是全球AI从‘拟人’走向‘懂人’的路线图起点。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

Nature发布‘人类最后的考试’基准：顶尖AI在专家级学术问题上集体失分，揭示能力天花板

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高