《自然》发布‘人类最后的考试’基准:顶尖AI在专家级考卷中集体失分,暴露推理天花板
2026年1月,《自然》(Nature)期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的里程碑式研究,正式推出‘Humanity's Last Exam’(HLE)专家级学术能力评估基准。该研究由美国AI安全中心联合Scale AI、全球50国近千名领域专家历时18个月构建,包含2500道严格筛选的研究生级考题,覆盖数学证明、量子场论推导、古文字训诂、临床病理鉴别等47个细分学科。所有题目均经三轮AI预筛——仅保留GPT-4o、Gemini 1.5 Pro、Claude 3.5等前沿模型答错率超85%或表现不显著优于随机猜测的题目,确保HLE成为真正‘考倒AI’的终极压力测试。研究结果显示,当前最强模型在HLE上的平均准确率仅为38.2%,远低于其在MMLU(92.7%)、GPQA(54.1%)等传统基准中的表现,暴露出大模型在深度因果推理、跨模态概念迁移、无监督假设生成等高阶认知能力上的系统性短板。
HLE的题干设计极具颠覆性:一道关于‘用非交换几何重构广义相对论时空结构’的题目,要求考生在未提供任何公式提示的前提下,自主构建数学对象间的映射关系;另一道医学题呈现罕见综合征的多模态病历(含皮肤镜图像、基因测序片段与患者自述文本),要求综合诊断并排除三种相似疾病。这类题目无法通过检索增强或模式匹配解决,必须激活深层知识网络并执行多步反事实推理。研究团队发现,模型失败主因在于‘符号接地失效’——即无法将抽象概念(如‘规范不变性’)锚定到物理世界的可观测现象,导致推理链条在第三步后必然坍缩。
该基准的发布正推动评估范式根本转向。谷歌DeepMind已宣布将HLE纳入Gemini 2.0研发KPI,百度千帆平台同步上线HLE兼容测试模块,允许企业客户验证其垂直大模型在专业场景的真实推理鲁棒性。更深远的影响在于,HLE正在催生新一代‘认知蒸馏’训练方法:清华大学团队利用HLE错题集反向构建‘推理漏洞图谱’,指导模型在损失函数中显式优化因果链完整性,初步实验显示其在生物医学问答任务中幻觉率下降41%。业界共识是,HLE不仅是评测标尺,更是通往可信AI的导航地图——唯有直面人类专家的知识边疆,AI才能真正成为科学探索的协作者而非华丽幻灯片生成器。