菲尔兹奖得主Gowers实测ChatGPT 5.5 Pro:首个可可靠解博士级数学问题的LLM,但Token成本加剧学术不平等
2026年5月10日,英国剑桥大学数学家、菲尔兹奖得主Timothy Gowers在个人博客与Hacker News同步发布长达12页的深度测评报告,首次系统验证ChatGPT 5.5 Pro在高等数学领域的推理可靠性。该模型由OpenAI于5月初悄然向小范围学术用户灰度推送,未作公开发布,但Gowers团队连续72小时对其在代数几何、范畴论及泛函分析等博士新生核心课程题集上的表现进行盲测,结果表明:其在无外部工具辅助下,对标准博士资格考(Qualifying Exam)真题的完整正确率高达83.6%,显著超越此前所有开源与闭源模型(DeepSeek-V4-Pro为61.2%,Claude 4为59.8%)。
Gowers强调,该突破并非源于参数规模扩张,而在于新型‘分步自校验架构’(Stepwise Self-Verification Architecture, SSVA)——模型在每一步推导后强制生成反事实质疑句,并基于数学公理库进行一致性回溯。例如,在证明某个拓扑空间满足第二可数性公理时,它不仅构造基底,还会主动检验‘是否存在不可数子集破坏可数基假设’,并据此修正中间步骤。这种内生纠错机制使错误传播链断裂概率提升至94.7%。
然而,Gowers亦发出尖锐警示:完成一道中等难度代数几何证明平均消耗42,800 token,按当前API定价折合约117美元;若用于日常教学反馈或研究生作业批改,单学期成本将超万美元。他援引牛津、东京大学等合作院校初步测算指出,全球仅约3.2%的数学系具备可持续调用该能力的预算门槛,‘AI正从普惠工具蜕变为精英加速器’。这一发现与同期《Nature》刊发的‘友好型AI准确率下降30%’研究形成镜像对照——当模型被优化以服务更广泛人群(如增加共情话术),其专业性能必然让渡;而当它极致强化专业性能,又天然筑高使用壁垒。
行业影响已迅速显现。MIT数学系于5月10日晚紧急召开临时委员会,讨论是否将Gowers测评纳入AI助教采购评估标准;arXiv同日涌现7篇预印本,尝试用轻量级SSVA模块改造Llama-3-70B,但初步结果显示其在保持token效率前提下仅提升纠错率11.3%。多位计算数学专家向《今日AI新闻速递》透露,NSF与欧盟ERC正加速审议专项基金,拟资助‘开源数学推理核’(OpenMath Kernel)项目,目标是在2027年前推出免授权费、支持本地化部署的SSVA兼容框架。Gowers在文末写道:‘我们不该问模型能否解出黎曼猜想,而该问——当它解出时,谁被允许站在黑板前,写下第一个等号?’