美团LongCat-Flash-Prover开源:数学定理证明模型刷新SOTA,通过率97.1%

2026-03-25 20:58 👁 阅读

2026年3月26日,美团龙猫团队正式开源数学定理证明模型LongCat-Flash-Prover,并在权威基准Minif2F-Test中以97.1%的证明通过率刷新全球开源模型SOTA纪录,较前代Meta的LeanDojo模型提升12.3个百分点。该模型并非单纯强化搜索策略,而是构建了‘自动形式化—草稿生成—严谨证明’三级流水线:第一阶段将自然语言数学命题自动转换为Lean 4形式化语言;第二阶段生成包含引理猜想与证明框架的中间草稿;第三阶段调用定制化搜索算法在形式化空间中穷举验证路径。整个过程完全脱离人工干预,且所有生成证明均可被Lean 4验证器100%确认有效,真正实现‘从概率输出到逻辑确定’的范式跃迁。

LongCat-Flash-Prover的技术突破集中于其‘证明感知注意力机制’(Proof-Aware Attention):模型在训练中显式学习数学对象间的逻辑依赖关系(如‘若A成立则B必要’),并将此知识注入每一层注意力权重计算,使模型在处理复杂嵌套命题(如拓扑学中的Urysohn引理)时,能优先聚焦关键变量约束而非表面语法结构。实测表明,该机制使模型在处理含5层以上逻辑嵌套的命题时成功率提升至89.6%,远超通用大模型不足30%的表现。此外,模型支持交互式修正——当证明失败时,可自动定位卡点并建议引入新引理或调整假设条件,极大降低人类数学家的形式化门槛。

这一成果对基础科学与AI安全具有双重战略意义。在科研端,LongCat-Flash-Prover已接入中科院数学所‘鸿蒙证明云’平台,协助物理学家验证量子引力模型中的微分几何命题;在工业端,其形式化能力正被华为海思用于芯片RTL代码的数学级正确性验证,将硬件Bug检出率提升至99.999%。更深远的影响在于,它为AI可信推理提供了可验证范本:当模型输出不再只是‘看似合理’的答案,而是附带机器可验的逻辑链条时,AI才真正具备参与高危决策(如核反应堆控制、航天器轨道计算)的资格。正如项目负责人所言:‘我们不是在教AI做数学,而是在教AI理解什么是‘必然为真’。’