新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

2025-05-27 19:12:10 神评论

阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

【来源：IT之家】

关于,阿里通义千问,长文本推理,阿里通义千问,长文本推理的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

6月MMO大战！《诡秘之主》等十余款新游扎堆

网易520发布会开幕《怪物猎人：旅人》启程测试

MMORPG新作《传奇：真》公开全新PV视频

《舞力全开：派对》7月2日上线《彩虹六号》国服首测定档6月17日

热门测试游戏

热门新闻排行

Wan网页游戏免费玩