Nature重磅发布‘人类最后的考试’基准：GPT-4o、Gemini 1.5Pro等顶尖模型专家级能力集体受挫

2026年1月，《自然》（Nature）期刊在线发表题为《A benchmark of expert-level academic questions to assess AI capabilities》的研究论文，正式推出全球首个专为‘考倒AI’而设计的专家级学术评测基准——Humanity’s Last Exam（HLE）。该基准由美国AI安全中心、Scale AI联合全球近1000名数学、物理、生物、历史及文学等领域的顶尖学者历时18个月构建，最终收录2500道严格筛选的题目，每题均需研究生以上专业深度、唯一确定答案、无法通过搜索引擎获取，且14%含文本+图像多模态输入。研究团队强调：‘只有AI预测试表现低于随机猜测的题目才被保留’，确保HLE真正成为衡量AGI进展的‘终极标尺’。

测试结果引发学界震动：GPT-4o在HLE整体准确率仅为32.6%，Gemini 1.5Pro为35.1%，而尚未公开细节的GPT-5仅达38.9%——远低于其在MMLU（92.4%）、BIG-Bench（89.7%）等主流基准中的‘学霸’表现。尤其在需要因果链推演的理论物理题（如广义相对论场方程边界条件分析）和跨纪年史料互证的历史题中，所有模型错误率超85%，暴露出当前大模型在深层逻辑建模、长程一致性维持与价值敏感推理上的结构性短板。

该研究不仅终结了‘大模型已逼近人类专家水平’的乐观叙事，更倒逼产业界重新定义AI问答系统的可靠性边界。百度千帆平台随即宣布启动‘HLE对齐计划’，将HLE题库纳入大模型语音语言模型的强化学习奖励函数；容联云则在3月6日提出‘AI智能体价值落地三原则’：可验证、可干预、可归因，明确拒绝将未经HLE验证的模型直接用于法律咨询、医疗决策等高敏场景。

长远来看，HLE的发布标志着AI评测范式从‘广度覆盖’转向‘深度穿透’，为工信部大模型证书体系增设‘专家级推理’专项认证提供科学依据，也为中国AGI‘CUV架构’所强调的‘因果—价值双轮驱动’提供了不可辩驳的实证支点——真正的通用智能，必须能通过人类最艰深思想的拷问。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

Nature重磅发布‘人类最后的考试’基准：GPT-4o、Gemini 1.5Pro等顶尖模型专家级能力集体受挫

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高