边用边训:蚂蚁集团携手清华大学开源 AReaL 系统,训练 AI 推理最高提速 2.77 倍
蚂蚁集团与清华大学联合开源AReaL系统,通过异步强化学习技术,将AI推理模型训练速度最高提升2.77倍,同时保持高准确率。点击了解技术细节与性能突破!
3 月 4 日消息,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。
援引博文介绍,随着大语言模型向“大推理模型”(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。
然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。
研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL 面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。
同时,研究团队提出了解耦 PPO 目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。


附上参考地址
arxiv 论文:《AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》
GitHub 相关页面
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 一看吓一跳:雷死人不偿命的囧图集(1033)
- 一看吓一跳:雷死人不偿命的囧图集(1031)
- 一看吓一跳:雷死人不偿命的囧图集(1034)
- 正惊GIF:人神共愤!如此漂亮女教师被气到动手,学生竟一脸无所谓
- 颜值COS,玉足、白丝过膝袜,体操服双马尾,简直太迷人
- 一看吓一跳:雷死人不偿命的囧图集(1035)
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 2月多款重磅新游测试:腾讯网易完美新作齐发、经典韩国MMO新作
- 《蔚蓝档案》「白丝透肤VS发光腹肌!砂狼白子体操服侧拍,腰线凹陷度堪比3D建模」
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 《燕云十六声》掌中宝+特殊蹊跷位置大全,三寸之身任务合集,仅剩7天10连抽连袅袅之音!
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 「纯欲天花板」2B花嫁撕破次元!白丝过膝陷肉感,透粉脚底VS发光蛮腰の双重暴击
- 《传奇5》真的要来了?还有《绝地求生》衍生作上线!盘点2026年能够玩到的韩国游戏
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 和平精英2025灵敏度分享码:最稳压枪灵敏度方案推荐
- AI大姐姐:胸猛美女,挑战你的视觉极限(221)
- 《魔兽世界》时光服:附魔1-450快速性价比冲级攻略

