新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

小米AI新论文！雷军曾用千万年薪要挖的DeepSeek天才少女署名

2025-10-16 17:47:45 神评论

17173 新闻导语

小米AI新论文发布！雷军曾千万年薪招募的DeepSeek天才少女罗福莉署名，揭秘提升MoE模型强化学习训练新方法R3，引发业界关注。

还记得去年底引发热议、上热搜的“95后AI天才少女”罗福莉吗？

据媒体报道，小米和北京大学联合署名的论文近日发表于arXiv，曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉，就出现在了这篇论文的通讯作者之列。

不过值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。

公开报道显示，罗福莉是95后，本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。

毕业后的罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO，并推动了AliceMind的开源工作，2022年入职DeepSeek，参与了MoE大模型DeepSeek-V2的研发。

去年年底，据证券时报独家报道称，小米创始人雷军亲自出手“挖人”，以千万年薪的优厚条件，成功招揽了DeepSeek开源大模型DeepSeek-V2的关键开发者之一——罗福莉，让她领导小米的AI大模型团队。

这也使其冲上热搜，但双方至今都未公开声明是否正式入职小米。

不过，今年2月18日，罗福莉在朋友圈发文呼吁：“请互联网还我一片安安静静做事的氛围吧！几年前就说过我并非天才少女，神化一个人的结果就是捧得多高摔得多重!”

据悉，这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay（R3）。

当下，强化学习已成为提升大语言模型能力的关键方法。然而在MoE模型中，路由机制往往会引入不稳定性，甚至导致强化学习训练崩溃，但现有的引入重要性采样机制等并不能提升训练稳定性。

不同于此前采取诸如丢弃差异较大的数据之类的变通方法，这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。

【来源：快科技】

关于小米,AI,论文,雷军,DeepSeek,罗福莉,大模型,MoE,强化学习,arXiv的新闻

今日热点

DNF之后最强动作网游，3天70万在线，玩家却被“斩杀”？

《古剑》7月18日线下试玩《终末地》云游戏不限量测试

腾讯网易暑期大战！《遗忘之海》VS《怪物猎人》你选？

《魔兽世界》12.1奖励全解析《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩