本文由第三方AI基于17173文章http://news.17173.com/content/03212026/160242262.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
美团开源 LongCat-Flash-Prover 大模型:5600 亿参数,刷新两项 SOTA 水平
2026-03-21 16:02:42
神评论
17173 新闻导语
美团开源5600亿参数LongCat-Flash-Prover大模型,刷新数学证明SOTA水平!采用MoE架构,解决复杂推理问题,MiniF2F测试达97.1%准确率。立即查看开源地址!
感谢网友 Domado 的线索投递!
3 月 21 日消息,美团现已开源 LongCat-Flash-Prover 大模型,采用 5677 亿参数、MoE(混合专家模型)形态,旨在解决复杂的数学证明问题。

据介绍,该模型引入了混合专家迭代框架(hybrid-experts iteration framework),用于生成大规模、高质量的形式化推理轨迹。可通过整合 Lean4、基于 AST 的多阶段严格验证流程,消除“幻觉”现象。
训练方面,该模型使用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练。同时加入定理一致性和合法性检测机制防止 Reward Hacking(奖励黑客行为)。
基准测试表明,这款模型在 MiniF2F-Test 上取得 97.1% 的成绩,仅需 72 次推理尝试;在 PutnamBench 任务上解决了 41.5% 的问题,使用 118 次推理尝试,在上述两项测试中刷新 SOTA 水平。
附该模型开源地址如下:
GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
【来源:IT之家】
热门测试游戏
- 1腾讯新作翻车?主策划亲笔4000字回复,补偿玩家价值2000元道具
- 2《暗黑破坏神4》国服免费领!官宣延长到8月,永久畅玩
- 3人人都在用的OBS,怎么就成了外挂神器?
- 4《星际公民》众筹破10亿美元!5000美元概念飞船开卖!
- 5《冒险岛怀旧服》国际版测试魔术师断层第一,史莱姆王遭5000次讨伐!
- 6网友吐槽粉木耳涉嫌性暗示 盒马道歉:已下架 坚决反对低俗不良信息
- 7极境飞升,剑启新章!!《剑网一》经典版2026年度资料片今日重磅上线!
- 8传统MMO让人望而生畏?这款轻松武侠搞了新模式,把焦虑给过滤了!
- 9《剑侠情缘·零》一周年盛会将至,庆典活动首波剧透来啦!
- 10韩援COSER小花生新照!太大了以至于没法批判什么!

