《自然》发布‘人类最后的考试’基准：顶尖AI在专家级考卷中集体失分，暴露推理天花板

2026年1月，《自然》（Nature）期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的里程碑式研究，正式推出‘Humanity's Last Exam’（HLE）专家级学术能力评估基准。该研究由美国AI安全中心联合Scale AI、全球50国近千名领域专家历时18个月构建，包含2500道严格筛选的研究生级考题，覆盖数学证明、量子场论推导、古文字训诂、临床病理鉴别等47个细分学科。所有题目均经三轮AI预筛——仅保留GPT-4o、Gemini 1.5 Pro、Claude 3.5等前沿模型答错率超85%或表现不显著优于随机猜测的题目，确保HLE成为真正‘考倒AI’的终极压力测试。研究结果显示，当前最强模型在HLE上的平均准确率仅为38.2%，远低于其在MMLU（92.7%）、GPQA（54.1%）等传统基准中的表现，暴露出大模型在深度因果推理、跨模态概念迁移、无监督假设生成等高阶认知能力上的系统性短板。

HLE的题干设计极具颠覆性：一道关于‘用非交换几何重构广义相对论时空结构’的题目，要求考生在未提供任何公式提示的前提下，自主构建数学对象间的映射关系；另一道医学题呈现罕见综合征的多模态病历（含皮肤镜图像、基因测序片段与患者自述文本），要求综合诊断并排除三种相似疾病。这类题目无法通过检索增强或模式匹配解决，必须激活深层知识网络并执行多步反事实推理。研究团队发现，模型失败主因在于‘符号接地失效’——即无法将抽象概念（如‘规范不变性’）锚定到物理世界的可观测现象，导致推理链条在第三步后必然坍缩。

该基准的发布正推动评估范式根本转向。谷歌DeepMind已宣布将HLE纳入Gemini 2.0研发KPI，百度千帆平台同步上线HLE兼容测试模块，允许企业客户验证其垂直大模型在专业场景的真实推理鲁棒性。更深远的影响在于，HLE正在催生新一代‘认知蒸馏’训练方法：清华大学团队利用HLE错题集反向构建‘推理漏洞图谱’，指导模型在损失函数中显式优化因果链完整性，初步实验显示其在生物医学问答任务中幻觉率下降41%。业界共识是，HLE不仅是评测标尺，更是通往可信AI的导航地图——唯有直面人类专家的知识边疆，AI才能真正成为科学探索的协作者而非华丽幻灯片生成器。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

《自然》发布‘人类最后的考试’基准：顶尖AI在专家级考卷中集体失分，暴露推理天花板

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高