Nature重磅发布‘人类最后的考试’基准:GPT-4o、Gemini 1.5Pro等顶尖模型专家级能力集体受挫
2026年1月,《自然》(Nature)期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的研究论文,正式推出全球首个专为‘考倒AI’而设计的专家级学术评测基准——Humanity’s Last Exam(HLE)。该基准由美国AI安全中心、Scale AI联合全球近1000名数学、物理、生物、历史及文学等领域的顶尖学者历时18个月构建,最终收录2500道严格筛选的题目,每题均需研究生以上专业深度、唯一确定答案、无法通过搜索引擎获取,且14%含文本+图像多模态输入。研究团队强调:‘只有AI预测试表现低于随机猜测的题目才被保留’,确保HLE真正成为衡量AGI进展的‘终极标尺’。
测试结果引发学界震动:GPT-4o在HLE整体准确率仅为32.6%,Gemini 1.5Pro为35.1%,而尚未公开细节的GPT-5仅达38.9%——远低于其在MMLU(92.4%)、BIG-Bench(89.7%)等主流基准中的‘学霸’表现。尤其在需要因果链推演的理论物理题(如广义相对论场方程边界条件分析)和跨纪年史料互证的历史题中,所有模型错误率超85%,暴露出当前大模型在深层逻辑建模、长程一致性维持与价值敏感推理上的结构性短板。
该研究不仅终结了‘大模型已逼近人类专家水平’的乐观叙事,更倒逼产业界重新定义AI问答系统的可靠性边界。百度千帆平台随即宣布启动‘HLE对齐计划’,将HLE题库纳入大模型语音语言模型的强化学习奖励函数;容联云则在3月6日提出‘AI智能体价值落地三原则’:可验证、可干预、可归因,明确拒绝将未经HLE验证的模型直接用于法律咨询、医疗决策等高敏场景。
长远来看,HLE的发布标志着AI评测范式从‘广度覆盖’转向‘深度穿透’,为工信部大模型证书体系增设‘专家级推理’专项认证提供科学依据,也为中国AGI‘CUV架构’所强调的‘因果—价值双轮驱动’提供了不可辩驳的实证支点——真正的通用智能,必须能通过人类最艰深思想的拷问。