小米AI新论文!雷军曾用千万年薪要挖的DeepSeek天才少女署名
小米AI新论文发布!雷军曾千万年薪招募的DeepSeek天才少女罗福莉署名,揭秘提升MoE模型强化学习训练新方法R3,引发业界关注。
还记得去年底引发热议、上热搜的“95后AI天才少女”罗福莉吗?
据媒体报道,小米和北京大学联合署名的论文近日发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,就出现在了这篇论文的通讯作者之列。
不过值得注意的是,论文作者中并没有标注罗福莉属于小米大模型团队。
公开报道显示,罗福莉是95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。
毕业后的罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。
去年年底,据证券时报独家报道称,小米创始人雷军亲自出手“挖人”,以千万年薪的优厚条件,成功招揽了DeepSeek开源大模型DeepSeek-V2的关键开发者之一——罗福莉,让她领导小米的AI大模型团队。
这也使其冲上热搜,但双方至今都未公开声明是否正式入职小米。
不过,今年2月18日,罗福莉在朋友圈发文呼吁:“请互联网还我一片安安静静做事的氛围吧!几年前就说过我并非天才少女,神化一个人的结果就是捧得多高摔得多重!”
据悉,这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。
当下,强化学习已成为提升大语言模型能力的关键方法。然而在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。
不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。
- 1网易520发布会多款新游集体亮相!但《无限大》缺席
- 2《传奇世界无双》6月26日盛大开测!传奇巨星奥尼尔化身"传世大鲨坦"加盟!
- 3游戏直接崩了!《暗黑4》玩家利用机制刷出2401只哥布林
- 4MMO网游破局之作?《七界梦谭》二测爆肝近百小时带来全新理解
- 5诛仙体验服上线!官方直播带你体验暴力法师——炼血!
- 6《天龙八部·归来》×国产神话3A 5月29日一战封神!
- 7前《妮姬》主美新作女角色太大了!大的看不到未来
- 8《冒险岛》怀旧服“归岛测试”今日开启!时光正好,一键登岛!
- 9“内定”+“空降”?《守望先锋》十周年活动,一手好牌打的稀烂
- 10网游时光机:叫板魔兽、硬刚主流MMO,这款“不合群”的网游,最终活成一股清流




