仅需1/10 Token消耗!百灵Ling-2.6-flash正式发布:104B参数实现SOTA级Agent
蚂蚁百灵发布Ling-2.6-flash模型:仅1/10 Token消耗实现SOTA级Agent性能!104B参数,推理速度340 tokens/s,限时免费试用。
今日,蚂蚁百灵正式推出 Ling-2.6-flash —— 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。该模型主打“Token 效率(Token Efficiency)”,在保持竞争力智能水平的同时,更快、更省以及更适合大规模真实应用。
据权威三方评测Artificial Analysis 数据,Ling-2.6-flash 展现了突出的 Token Efficiency 优势,以 15M output tokens 实现了 26 分 的 Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在相对更低的位置。

据了解,Ling-2.6-flash 沿用了 Ling 2.5 的混合线性架构设计,这种高度稀疏化的 MoE 架构在硬件表现上优势明显。
在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。
在 Output Speed 测评中,Ling-2.6-flash以 215 tokens/s 的稳定输出速度位列同参数级别模型的第一梯队。
从 Token 消耗来看,Ling-2.6-flash 的智效比显著提升。
在 Artificial Analysis 完整测评中,Ling-2.6-flash 总消耗为 15M tokens,而 Nemotron-3-Super 等模型达到或超过 110M tokens。这意味着,Ling-2.6-flash 仅用约 1/10 的 token 消耗完成了同类评测任务。


Ling-2.6-flash 面向 Agent 场景进行了定向增强,在控制 Token 消耗的前提下,依然保持了极强的任务执行力,模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相关基准上达到同尺寸 SOTA 水平。
与此同时,Ling-2.6-flash 在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。

API 定价方面,Ling-2.6-flash 输入每百万tokens定价 0.1 美元,输出 0.3 美元。目前,Ling-2.6-flash 的 API 已正式向用户开放,并提供为期一周的限时免费试用。
用户可以通过OpenRouter 、百灵大模型 tbox 获取对应服务。据了解,该模型后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业。
- 1暴雪开大招!《暗黑4》新资料片抢先试玩:术士强度拉满,墨菲斯托故事收官!
- 2韩服《奇迹MU》进行五大职业的大规模重制更新
- 3《失落的方舟》续作?笑门虚幻5新游《Orpheus》公布,方舟制作人主导开发
- 4AI再次大突破,可一键生成《金瓶梅》游戏,细节非常夸张!
- 5《风暴英雄》突然超大更新!玩家直呼:不是死了吗
- 6《永恒之塔2》开放Steam页面 预告视频放出
- 7对话《异环》开发团队:做一款“人文至上”的都市开放世界
- 8绅士日报:惊!童年页游现在竟成这样?角色全变骚气熟女!
- 9国产互动影游《今天也要努力杀汉奸》曝光,可以核爆日本全境?
- 10《魔兽世界》国服独占幻化引爆欧美玩家热议:为何好东西总在中国!

