边用边训:蚂蚁集团携手清华大学开源 AReaL 系统,训练 AI 推理最高提速 2.77 倍
蚂蚁集团与清华大学联合开源AReaL系统,通过异步强化学习技术,将AI推理模型训练速度最高提升2.77倍,同时保持高准确率。点击了解技术细节与性能突破!
3 月 4 日消息,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。
援引博文介绍,随着大语言模型向“大推理模型”(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。
然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。
研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL 面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。
同时,研究团队提出了解耦 PPO 目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。


附上参考地址
arxiv 论文:《AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》
GitHub 相关页面
- 1又一款韩国现象级网游即将诞生?《纳克园》真实测评
- 2七年磨一剑,上线就干爆了Steam服务器,它凭实力成为年度爆款!
- 3腾讯大作《代号:致金庸》疑似被砍!官网消失,官号"删"视频
- 4【魔兽世界】12.0版本全职业人气排行!一个蓝色职业人气高的令人费解
- 5夫人大雷诱惑,里昂性转太色气!国外美女Cos《生化》系列角色
- 6最美千金!赌王何鸿燊爱女晒性感靓照:颜值爆棚!
- 7四月二游“神仙打架”:《异环》、《王者荣耀世界》领衔,谁将成为最大赢家?
- 8搭讪辣妹竟是非人类?美女影游《爱:死而后已》太有活了!
- 9《魔兽世界》赶紧上号!登陆免费领取《星际争霸》联动武器外观
- 10腾讯15年前经典IP续作 《洛克王国:世界》3月26日开服 官方承诺不卖数值、不抽卡

