小米AI新论文!雷军曾用千万年薪要挖的DeepSeek天才少女署名
小米AI新论文发布!雷军曾千万年薪招募的DeepSeek天才少女罗福莉署名,揭秘提升MoE模型强化学习训练新方法R3,引发业界关注。
还记得去年底引发热议、上热搜的“95后AI天才少女”罗福莉吗?
据媒体报道,小米和北京大学联合署名的论文近日发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,就出现在了这篇论文的通讯作者之列。
不过值得注意的是,论文作者中并没有标注罗福莉属于小米大模型团队。
公开报道显示,罗福莉是95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。
毕业后的罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。
去年年底,据证券时报独家报道称,小米创始人雷军亲自出手“挖人”,以千万年薪的优厚条件,成功招揽了DeepSeek开源大模型DeepSeek-V2的关键开发者之一——罗福莉,让她领导小米的AI大模型团队。
这也使其冲上热搜,但双方至今都未公开声明是否正式入职小米。
不过,今年2月18日,罗福莉在朋友圈发文呼吁:“请互联网还我一片安安静静做事的氛围吧!几年前就说过我并非天才少女,神化一个人的结果就是捧得多高摔得多重!”
据悉,这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。
当下,强化学习已成为提升大语言模型能力的关键方法。然而在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。
不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。
- 1《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 2《天下3》弱水三千S3赛季预热活动开启
- 3清北追捧十五年的鹅腿,原来是一场现实版的《鹅鸭杀》
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 6曾经的3D《DNF》回来了!第一热血硬派ACT网游是否值得一玩?
- 7Steam新品节,但文艺复兴:韩产手游《泽诺尼亚》时隔18年移植pc
- 8新作公布到工作室解散只隔8天:疯狂裁撤真能降本增效?
- 9Nexon新作MMO《无冕之烬》免费试玩开启!截止6月22日
- 10掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线




