菲尔兹奖得主Gowers实测ChatGPT 5.5 Pro:首个可稳定求解博士级数学问题的LLM,但Token成本加剧学术不平等

2026-05-14 15:54 👁 29452

2026年5月10日,英国数学家、菲尔兹奖得主Timothy Gowers在个人博客与Hacker News同步发布深度测评报告,首次系统验证ChatGPT 5.5 Pro在高等数学领域的推理可靠性。该评测涵盖代数几何、泛函分析、拓扑学等博士新生阶段核心考题共47道,覆盖定义推演、定理复现、反例构造与证明补全四大维度。结果显示,模型在无外部工具辅助、单次提示(single-turn)条件下,准确完成率达89.4%,显著高于此前所有公开大模型(包括DeepSeek-V4-Pro与Claude 4-Math),成为全球首个被权威数学家实证‘可稳定求解博士级数学问题’的语言模型。

Gowers强调,该能力并非源于暴力参数堆叠,而是得益于其新引入的‘分层验证式思维链’(Hierarchical Verification Chain, HVC)机制——模型在生成每一步推理前,自动调用轻量级校验子模块对前提一致性、符号合法性与逻辑跨度进行三重过滤,并支持用户嵌入领域公理作为硬约束。这一设计使模型在处理如‘非交换Banach代数上的谱映射定理推广’等高阶命题时,错误率下降至5.2%,远低于人类博士生首轮作业平均错误率(18.7%)。

然而,Gowers同时发出严峻警示:完成一道中等难度代数拓扑证明,平均消耗约230万token,按当前OpenAI API定价折算成本达117美元。这意味着一名数学系研究生若每日使用该模型辅助研究,月度AI支出将超3500美元,远超多数高校实验室年度计算预算。他援引剑桥大学数学系内部调研指出,已有32%的博士生因无法承担token费用,被迫放弃使用先进模型进行猜想探索,转而依赖低效人工试错——AI本应弥合的能力鸿沟,正异化为新的资源壁垒。

行业影响层面,该报告直接冲击当前AI数学赛道评估范式。LMArena已紧急宣布将增设‘单位成本有效性’(Cost-Adjusted Rigor Score, CARS)指标,要求所有参评模型同步提交每千token推理准确率。多家高校数学系正联合起草《学术AI普惠使用倡议》,呼吁主流厂商设立教育token配额池,并推动开源社区开发轻量化数学推理微核(Math-Kernel Lite)。

未来展望上,Gowers提出‘双轨演进’路径:一方面需发展硬件感知型稀疏推理架构,将博士级数学任务压缩至百万token内;另一方面亟待建立跨机构数学语义知识图谱,使模型可通过结构化公理索引替代海量token消耗。他断言:‘当一个模型能证明定理,却让证明者付不起账单时,我们赢得的不是智能,而是新的阶级。’这一观点已在Nature子刊《AI & Society》编辑部引发紧急组稿,专题论文预计将于6月上线。