参数超万亿:阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版,性能全面领先
阿里发布万亿参数AI大模型Qwen3-Max正式版,性能全面领先GPT-5与Claude Opus!代码生成与智能体能力突破,推理测试满分。点击了解详情!
继 Qwen3-2507 系列发布之后,阿里云今天宣布推出 Qwen3-Max —— 通义团队迄今为止规模最大、能力最强的语言模型。
Qwen3-Max-Instruct 正式版在代码能力和智能体能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。
通义团队表示,仍在训练中的 Qwen3-Max-Thinking 已展现出非凡潜力,预计在不久的将来向公众正式发布这一版本。据介绍,在结合工具使用并增加测试时计算资源的情况下,该“思考”版本已在 AIME 25、HMMT 等高难度推理基准测试中取得 100% 的准确率。
据阿里介绍,Qwen3-Max 模型总参数超过 1T,预训练使用了 36T tokens。模型结构沿用了 Qwen3 系列的模型结构设计范式,使用了 global-batch load balancing loss。
训练稳定性:得益于 Qwen3 的 MoE 模型结构设计,Qwen3-Max 的预训练 loss 稳定平滑。训练过程一气呵成,没有任何 loss 尖刺,也没有使用训练回退、改变数据分布等调整策略。
训练高效性:在 PAI-FlashMoE 的高效多级流水并行策略优化下,Qwen3-Max-Base 训练效率显著提升,其 MFU 相比 Qwen2.5-Max-Base 相对提升 30%。在长序列训练场景中,进一步使用 ChunkFlow 策略获得了相比序列并行方案提升 3 倍的吞吐收益,支持 Qwen3-Max 1M 长上下文的训练。同时,通过 SanityCheck、EasyCheckpoint、调度链路优化等多种手段,Qwen3-Max 在超大规模集群上因硬件故障造成的时间损失下降为 Qwen2.5-Max 的五分之一。
据介绍,Qwen3-Max-Instruct 的预览版已在 LMArena 文本排行榜上稳居全球前三(超越 GPT-5-Chat)。正式发布版本进一步提升了其能力,尤其在代码生成与智能体表现方面表现卓越。
在专注于解决现实编程挑战的基准测试 SWE-Bench Verified 上,Qwen3-Max-Instruct 取得了高达 69.6 分的优异成绩,稳居全球顶尖模型之列。
此外,在评估智能体工具调用能力的严苛基准 Tau2-Bench 上,Qwen3-Max-Instruct 更是实现了突破性表现,以 74.8 分超越 Claude Opus 4 与 DeepSeek-V3.1。
Qwen3-Max 的推理增强版本 —— Qwen3-Max-Thinking,通过集成代码解释器并运用并行测试时计算技术,展现了前所未有的推理能力,尤其在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上,均取得了满分。
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 3月新游推荐:韩游最重磅的3A《红色沙漠》即将发售!《失落星船:马拉松》能否蹭上搜打撤的热度?
- 一看吓一跳:雷死人不偿命的囧图集(1035)
- 一看吓一跳:雷死人不偿命的囧图集(1036)
- 一看吓一跳:雷死人不偿命的囧图集(1034)
- 热游情报:宝可梦、守望、古印度黑猴新作曝光!首款二次元GTA抢先定档
- 一看吓一跳:雷死人不偿命的囧图集(1037)
- 一看吓一跳:雷死人不偿命的囧图集(1038)
- 颜值COS,玉足、白丝过膝袜,体操服双马尾,简直太迷人
- 正惊GIF:人神共愤!如此漂亮女教师被气到动手,学生竟一脸无所谓
- 《蔚蓝档案》「白丝透肤VS发光腹肌!砂狼白子体操服侧拍,腰线凹陷度堪比3D建模」
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 《燕云十六声》掌中宝+特殊蹊跷位置大全,三寸之身任务合集,仅剩7天10连抽连袅袅之音!
- 《传奇5》真的要来了?还有《绝地求生》衍生作上线!盘点2026年能够玩到的韩国游戏
- 「纯欲天花板」2B花嫁撕破次元!白丝过膝陷肉感,透粉脚底VS发光蛮腰の双重暴击
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 和平精英2025灵敏度分享码:最稳压枪灵敏度方案推荐
- 3月新游推荐:韩游最重磅的3A《红色沙漠》即将发售!《失落星船:马拉松》能否蹭上搜打撤的热度?
- 一看吓一跳:雷死人不偿命的囧图集(1033)





