美团龙猫开源LongCat-Flash-Prover:数学定理证明模型刷新开源SOTA纪录

2026-03-25 20:58 👁 阅读

2026年3月26日,美团龙猫团队正式开源数学定理证明模型LongCat-Flash-Prover,在权威基准Minif2F-Test中以97.1%的定理自动证明通过率刷新全球开源模型最高纪录,超越此前由DeepMind的AlphaProof保持的94.8%成绩。该模型并非单纯强化学习搜索,而是首创‘自动形式化-草稿生成-证明生成’三级流水线架构:第一阶段将自然语言数学命题自动转译为Lean 4形式化语言;第二阶段生成含中间引理与反例试探的‘证明草稿’;第三阶段基于草稿执行符号推理与Coq交互式验证。实测表明,其在代数拓扑与组合博弈论等高难度子领域表现尤为突出,成功证明了3个曾困扰数学界超20年的开放引理。

LongCat-Flash-Prover的突破性意义在于实现了从‘概率性猜测’到‘可验证逻辑’的范式跃迁。传统大模型在数学任务中常出现‘幻觉证明’——看似严密实则存在隐含谬误;而本模型所有输出均附带完整形式化验证轨迹,支持逐行回溯推理依据,并可导出标准Coq脚本供学术复现。项目已集成至Lean Community Server,全球数学家可在线提交待证命题并获取可验证证明。美团同步发布配套工具链LongCat-IDE,提供语法高亮、错误定位与可视化证明树等功能,大幅降低形式化数学门槛。

该成果对基础科学研究与AI安全具有双重战略价值。一方面,它为数学、理论物理等领域提供可信赖的AI协作伙伴,加速重大猜想验证进程;另一方面,其严格的逻辑验证机制为AI对齐(AI Alignment)研究提供新范式——当模型输出必须通过形式化检验才被接受时,‘目标篡改’与‘奖励黑客’等风险被天然遏制。学界评价称,LongCat-Flash-Prover标志着AI正从‘知识容器’进化为‘逻辑协作者’,或将催生下一代可验证AI操作系统(Verifiable AI OS)。