Nature发布‘人类最后的考试’基准:顶尖AI在专家级学术问题上集体失分,揭示能力天花板
2026年1月,《自然》(Nature)期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的突破性研究,正式推出‘Humanity's Last Exam’(HLE)——一套专为‘考倒AI’而设计的专家级学术能力基准。该研究由美国AI安全中心、Scale AI联合全球50国近千名学科专家历时18个月共建,涵盖数学、粒子物理、结构生物学、法哲学、比较文学等52个前沿领域,最终精选2500道题目。所有试题均需研究生高阶知识、跨概念深度推理或原创性建模能力,且经预测试严格筛选:仅当GPT-4o、Gemini 1.5 Pro、GPT-5等SOTA模型答对率低于随机猜测水平时,题目方被纳入终版题库,确保其真正构成AI能力‘压力测试’。
测试结果引发学界震动:在整体2500题中,表现最佳的GPT-5仅取得38.2%准确率,远低于人类领域专家平均92.7%的通过率;在需要构建新数学证明的‘代数拓扑’子集,所有模型准确率趋近于零;涉及多步反事实推演的历史哲学题,模型普遍陷入循环论证或价值预设谬误。研究团队强调,HLE并非否定AI进步,而是揭示当前技术的根本局限——大模型仍缺乏对学科‘认知脚手架’(如数学公理体系、历史因果链、法律权责框架)的内化理解,其答案多源于统计关联而非原理掌握。
该基准已迅速被MIT、DeepMind、中科院自动化所等机构采纳为AGI研发‘校准标尺’。其深层影响在于推动技术范式转向:产业界正加速布局‘小而深’的领域认知模型(如‘量子化学专用推理引擎’),学术界则重启符号主义与神经网络融合研究。正如论文作者所言:‘当试卷不再能区分AI优劣时,我们造了一张新试卷;当新试卷让所有AI不及格时,我们终于看清了通往真正智能的崎岖山路。’HLE不仅是一份成绩单,更是全球AI从‘拟人’走向‘懂人’的路线图起点。