本文由第三方AI基于17173文章http://news.17173.com/content/03212026/160242262.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
美团开源 LongCat-Flash-Prover 大模型:5600 亿参数,刷新两项 SOTA 水平
2026-03-21 16:02:42
神评论
17173 新闻导语
美团开源5600亿参数LongCat-Flash-Prover大模型,刷新数学证明SOTA水平!采用MoE架构,解决复杂推理问题,MiniF2F测试达97.1%准确率。立即查看开源地址!
感谢网友 Domado 的线索投递!
3 月 21 日消息,美团现已开源 LongCat-Flash-Prover 大模型,采用 5677 亿参数、MoE(混合专家模型)形态,旨在解决复杂的数学证明问题。

据介绍,该模型引入了混合专家迭代框架(hybrid-experts iteration framework),用于生成大规模、高质量的形式化推理轨迹。可通过整合 Lean4、基于 AST 的多阶段严格验证流程,消除“幻觉”现象。
训练方面,该模型使用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练。同时加入定理一致性和合法性检测机制防止 Reward Hacking(奖励黑客行为)。
基准测试表明,这款模型在 MiniF2F-Test 上取得 97.1% 的成绩,仅需 72 次推理尝试;在 PutnamBench 任务上解决了 41.5% 的问题,使用 118 次推理尝试,在上述两项测试中刷新 SOTA 水平。
附该模型开源地址如下:
GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
【来源:IT之家】
热门测试游戏
- 1NEXON全新暗黑风MMORPG《无冕之烬》今日开启免费试玩
- 27年磨一剑磨出个寂寞!潮玩巨头做游戏,上线2年亏了1亿多
- 3游戏史上素质最差的角色!脏话多到创造吉尼斯记录?
- 4《御龙在天》6月16日全服更新 端午多重福利 新职业揭秘来袭
- 5白精灵被包围了!《天堂2:盟约》亚丁王座巡礼火热回顾!
- 6《永恒之塔2》重磅联动女团!新职业新地图降价福利齐上线
- 7《永恒之塔2》大型版本即将于7月1日上线,航海玩法官宣
- 8瑟瑟才是第一生产力!《剑星:血雨》预告片臀部展示画面玩家观看次数最多
- 9美国漫展coser“脚汁”事件再度上演 甚至还被原主现场取缔
- 10支持简中!《泽诺尼亚》Steam公开PC试玩版

