本文由第三方AI基于17173文章http://news.17173.com/content/05272025/191209631.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 19:12:10
神评论
阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。
在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。
【来源:IT之家】
热门测试游戏
- 1又一传奇MMORPG上线,还有全新类暗黑刷刷新作!盘点4月外服多人游戏
- 2高自由养成!韩国MMO《丝路传说Again》定档4月7日
- 3韩国女团成员撞脸《生化危机》艾达王 玩家大呼太像了
- 4成人恶搞版《超英派遣中心》在Steam上公布
- 5《洛奇英雄传》IP新作最新开发动向来了!新增多位美女NPC
- 6育碧刷宝射击新作《全境封锁:曙光》今日全球上线
- 7玩家称赞《红色沙漠》里女角色全是大雷妹!但还不够性感
- 8梦幻西游:心疼老板和主播,玩家鉴定140铠甲也追梦点专用,炸出无级别却无用
- 9《魔兽世界》12.0 下周将集体起飞!这些玩家可获取3件285装备和四件套
- 10魔兽时光服:把橙装留给土豪,这些紫装才是平民玩家的P3版本答案

