美团LongCat-Flash-Prover开源：数学定理证明模型刷新SOTA，通过率97.1%

2026年3月26日，美团龙猫团队正式开源数学定理证明模型LongCat-Flash-Prover，并在权威基准Minif2F-Test中以97.1%的证明通过率刷新全球开源模型SOTA纪录，较前代Meta的LeanDojo模型提升12.3个百分点。该模型并非单纯强化搜索策略，而是构建了‘自动形式化—草稿生成—严谨证明’三级流水线：第一阶段将自然语言数学命题自动转换为Lean 4形式化语言；第二阶段生成包含引理猜想与证明框架的中间草稿；第三阶段调用定制化搜索算法在形式化空间中穷举验证路径。整个过程完全脱离人工干预，且所有生成证明均可被Lean 4验证器100%确认有效，真正实现‘从概率输出到逻辑确定’的范式跃迁。

LongCat-Flash-Prover的技术突破集中于其‘证明感知注意力机制’（Proof-Aware Attention）：模型在训练中显式学习数学对象间的逻辑依赖关系（如‘若A成立则B必要’），并将此知识注入每一层注意力权重计算，使模型在处理复杂嵌套命题（如拓扑学中的Urysohn引理）时，能优先聚焦关键变量约束而非表面语法结构。实测表明，该机制使模型在处理含5层以上逻辑嵌套的命题时成功率提升至89.6%，远超通用大模型不足30%的表现。此外，模型支持交互式修正——当证明失败时，可自动定位卡点并建议引入新引理或调整假设条件，极大降低人类数学家的形式化门槛。

这一成果对基础科学与AI安全具有双重战略意义。在科研端，LongCat-Flash-Prover已接入中科院数学所‘鸿蒙证明云’平台，协助物理学家验证量子引力模型中的微分几何命题；在工业端，其形式化能力正被华为海思用于芯片RTL代码的数学级正确性验证，将硬件Bug检出率提升至99.999%。更深远的影响在于，它为AI可信推理提供了可验证范本：当模型输出不再只是‘看似合理’的答案，而是附带机器可验的逻辑链条时，AI才真正具备参与高危决策（如核反应堆控制、航天器轨道计算）的资格。正如项目负责人所言：‘我们不是在教AI做数学，而是在教AI理解什么是‘必然为真’。’

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

美团LongCat-Flash-Prover开源：数学定理证明模型刷新SOTA，通过率97.1%

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高