Token低价陷阱

2026-06-19 03:00:29 神评论

17173 新闻导语

Token价格暴跌99%？企业AI成本反飙升！揭秘产业链谁在赚钱：HBM、光模块、液冷成赢家，云厂商分层定价，有场景壁垒的应用吃红利。避开低价陷阱，看透AI算力通胀下的投资机会。

大模型确实越来越便宜，但企业使用AI这件事，正在变得越来越贵。

这听起来矛盾，却是当下Token经济最真实的一面。

以OpenAI公开定价为锚，2023年3月GPT-4发布时每百万Token输入30美元/输出60美元，到2024年5月GPT-4o发布时降至5美元/15美元，再到今天，大量够用级推理模型已经把价格打到每百万Token几毛美元甚至更低。

如果以早期GPT-4价格作为高位锚点，部分通用推理Token价格在三年内最高降幅达99%。

这也是过去两年行业最流行的判断：大模型会像带宽一样，越用越便宜。

但进入2026年，这个判断只说对了一半。便宜的是部分模型Token价格，企业的AI运营总支出并未缩减。

原因在于，通用Token价格虽然在探底，企业却正从简单问答转向Agent协作、代码生成等复杂工作流，而这类任务的Token消耗量往往是简单问答的十倍甚至百倍，导致算力总支出膨胀。

由此形成价格撕裂期：通用Token在探底，高价值能力在分层，企业AI支出在调用结构中膨胀。

但这种膨胀并非雨露均沾，而是沿着芯片、光模块、云平台直至应用等产业链环节，进行重新分配。在投资视角下，这种价格分裂的本质，是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景，谁就更有机会在Token用量爆发中持续收费。

本文试图回答一个更现实的问题：在这场价格撕裂中，AI产业链中谁在真正赚钱，谁被成本和价格战挤压？

谁在真正赚钱？过去两年，简单问答、摘要、翻译、分类等通用任务，在MoE架构、缓存、蒸馏和推理优化推动下，成本在逼近“水电价”。

这些任务有几个共同特征：可预期、可缓存、可替代、对模型能力要求不极致。这类Token最容易被技术优化，也最容易被价格战打穿。它们正在从“AI能力”变成“基础设施能力”。所谓99%的降价红利，主要发生在这一层。

但企业真正花钱越来越多的地方，并不在这里，更多集中在编程、Agent协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来，重新按“旗舰能力”计费。

以智谱为例，其GLM-5.1对准编程与Agent场景，输入价格为每百万Token 6-8元，输出价格为24-28元；日常轻量任务则建议继续用GLM-4.7，输入价格为2-4元，输出价格为8-16元。两者价差约3倍。

这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量，低价获客；同时开始向编程、Agent、复杂推理、多模态这类场景要利润。

与此同时，底层的物理成本并未跟随通用Token的降价变化。HBM价格高位运行、数据中心电力与液冷成本高企，这些硬约束迫使阿里、腾讯、百度等云厂商在3月罕见上调了AI算力服务价格。

即，当可压缩场景的Token成本不断探底，不可压缩场景的算力成本依然坚挺，这正是企业算力支出失控的底层推手之一。

但更大的问题，不是单价，是用量膨胀。

过去企业用大模型，大多是一问一答，单次调用成本相对可控。

现在更多付费场景变成了Agent协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下，即使Token单价下降，但单轮单次任务消耗的Token数量可能放大十倍、几十倍的情况下，企业AI运营总成本反而可能上涨。

这是为什么一些企业在大规模开放AI编程工具后，很快遇到预算失控问题。

如Uber在为5000名工程师开放AI编程工具后，仅4个月便烧光了2026全年预算；国内米哈游技术团队负责人郑银河在2026年5月阿里云峰会上公开披露，团队一位工程师测试多Agent协作时，因未设熔断、数十个Agent进入循环调用，费用飙升，13小时内收到200万元Token账单。

正是这三层结构的叠加，导致了“99%降价”与“企业AI更贵”的共存。

而企业多花出去的钱，并没有消失，它变成了产业链上某些环节的收入和利润。

因为通用Token越便宜，越容易刺激企业把AI推向更复杂、更高频、更重算力的场景；而这些新增需求，最终会流向芯片、光模块、云平台、高价值模型API、应用场景和基础设施等。

即，真正赚钱的，不是卖便宜Token的人，是能从Token用量爆发里持续收费的人。这是理解当下AI产业链分化的关键。

接下来，对产业链上中下游分别展开讨论。

上游要卡住瓶颈Token经济下，AI产业链的上游由计算芯片（GPU/NPU/LPU，加速器）、高速存储（HBM）、高速互联（含光模块）、智算中心基础设施（供电、冷却）等构成，这些环节决定Token生成的速度、稳定性和单位成本。

但上游并不是一块铁板。真正掌握定价权的，是那些卡住了物理瓶颈的环节。

首先是GPU和HBM。

随着Agent与多模态处理的发展，瓶颈不再局限于算力，更在于显存容量、带宽和数据搬运能力。HBM产能周期长、扩产慢（一般需24–36个月），又被大客户长协锁定，供给刚性直接转化为利润护城河。

海外三大存储巨头（SK海力士、三星和美光）凭借HBM，将DRAM综合毛利率拉回50%+，其中SK海力士2025年Q4的毛利率已达69%。

更关键的是，稀缺的HBM带宽通常不单独出售，而是被封装进GPU加速卡、整机和高速互联系统中，最终以整套计算系统的出售溢价体现出来。因此，最厚的利润池并非单一的HBM或GPU，而是“GPU+HBM+独家互联技术”打包在一起的套餐。

不过，国内破局之路尚处起步，长鑫存储作为唯一DRAM IDM（设计+制造一体化），正以低毛利换良率爬坡，攻坚HBM供给瓶颈；摩尔线程、沐曦、壁仞、燧原科技等GPU厂商则试图通过自研架构与开放互联标准（如OISA），在英伟达体系外构建可用的国产算力底座。

从估值层面看，资本市场对于HBM赛道的追捧主要来自于供给紧张。只不过，据长城证券测算，2025-2026年全球HBM供需比分别为45%和27%，缺口确实存在，但有所收窄。这意味着估值锚正在从"有没有货"移向"高端占比与毛利率能不能守得住"。未来一旦HBM产能扩张速度超过需求增速，估值逻辑将会变化，届时需注意下调风险。

至于GPU赛道，AI算力需求仍在情况下，资本市场仍会活跃。只不过，已经过了“讲故事”的阶段，转向“业绩检验期”。如数据中心收入质量、下一代架构的出货锁单、以及单位Token成本下降是否会压低"按集群付费"的天花线等都会被检验。未来任何关于“增速边际放缓”的信号，可能都会导致估值回调。

其次是光模块。

AI集群不是简单堆砌GPU，单服务器内、跨服务器节点间、乃至跨数据中心的互联能力，共同决定了算力能不能真正跑起来。800G向1.6T光模块升级，本质上是Token海量爆发后对更高带宽、更低延迟的刚性需求，这是该赛道走强的重要驱动因素。

所以，这一环节依靠“高端规格迭代+客户认证壁垒”构筑护城河，头部厂商如中际旭创、新易盛的毛利率已从早年30%左右攀升至40%以上。

但要注意的是，中际旭创、新易盛等企业的前五大客户收入贡献均超7成，客户集中风险比较高，任何一个大客户的订单波动都会影响全年业绩。且这种情况下，光模块企业的议价能力较弱。未来若1.6T的放量速度不及预期，或买方议价让平均售价阶梯下行速度快于成本降幅，利润增速可能会面临拐点。

而中际旭创、新易盛分别为102倍何75倍的滚动市盈率，近5年历史分位数均在94%以上，意味着市场已把"未来2-3年高增+份额不丢"提前付款，安全边际薄。

再就是电力与散热。当单卡功耗继续上升，传统风冷接近物理极限，液冷从可选项变成刚需。而高密度机柜的稳定运行，则依赖于园区级供电容量的冗余与效率。这一环节是典型的“资本开支驱动+交付能力壁垒”。

英维克凭借全栈液冷技术绑定头部算力集群，资本市场上确实享有高溢价。但英维克当下196倍的滚动市盈率，近5年历史分位数94%，处于估值高位。这意味着市场已经把2026年全年的液冷放量充分定价，甚至透支了部分2027年的预期。未来一旦招标价松动或对手报价拉低毛利，估值回调风险会比较大。

而特锐德是全球最大的预制舱式变电站制造商，近期推出的”算电岛”方案，通过高压直入与800V直流供电，可将Token的用电成本降低约30%，这一叙事受到市场较多关注。但估值能否从电力设备向AI基础设施迁移，取决于下半年算电岛的订单和交付数据。

位于产业链末端的服务器系统集成与组装，便是典型的“量大、利薄”赛道。

以国内AI服务器出货龙头浪潮信息为例，其主业本质是“品牌整机+JDM联合设计制造”平台。一台AI服务器的物料成本里，大部分被上游GPU、存储芯片锁定，下游又面临云厂商的强势议价，导致其毛利率较低，2025年仅5%左右。它更像是“高级搬运工”，在上下游的夹缝中赚取辛苦钱。

所以，上游各赛道表面看都在涨，底层逻辑却不同：

（1）HBM/GPU：不可替代性来自物理硬约束（产能周期、技术壁垒、生态锁定），溢价有"供给刚性"托底，但需警惕产能扩张后的供需逆转。

（2）光模块/液冷：不可替代性更多建立在“1.6T升级、云厂商资本开支扩张”，即需求持续超预期的假设上。弹性最大，但一旦预期落空，跌幅也最猛。客户集中和价格下降是始终悬在头上的风险。

（3）电力、液冷：有刚需的安全边际（电网准入、市占率、交付能力），也有AI增量需求的弹性预期。AI叙事顺利时，它跟着涨；叙事出问题时，它也会跌，但跌幅相对可控。

（4）服务器组装：不具备不可替代性，没有定价权，毛利率常年徘徊在个位数。出货量增长时跟随行业Beta上涨，但一旦下游砍单或库存调整，估值会迅速压缩。市场给它的更多是“低毛利高周转的周期加工厂”估值。

上游投资的本质，是判断"不可替代性"的成色：物理约束越硬，安全边际越高；叙事依赖越强，波动越大；什么都没有，就只能赚辛苦钱。

（图表来源：妙投制作）

中游要锁定生态上游划定了算力的物理成本和稀缺性，但真正把算力变成可售卖、可计费、可被普通开发者调用的“服务”的，是中游的云厂商、算力租赁平台、大模型供应商以及运营商。（云厂商、算力租赁平台虽涉足上游基础设施建设，但其核心利润来源于中游的平台调度与生态锁定，故归入中游）

这一环节的核心逻辑通过分层定价实现利润最大化，不再是“越便宜越好”。

云厂商的做法最典型。阿里、腾讯、百度等云厂商下调通用模型价格，并不意味着愿意长期亏钱。对云厂商来说，通用模型只是入口，真正的利润池在后面：云数据库、云存储、云专线、安全、弹性算力、专属推理实例和行业解决方案。

因此，当云厂商上调部分AI算力服务价格时，涨的往往不是普通聊天Token，而是更接近企业生产环境的高消耗服务：专属集群、弹性算力资源、高可用保障和企业级部署能力等。

当企业被Agent的循环调用绑定在阿里或腾讯等云生态时，平台收取的费用由“算力费"转为”企业生产流水的过路费"。这种估值锚是"迁移成本"。

这正是分层定价的体现：用低价的通用模型抢占入口，再对真正支撑企业级业务（如运行Agent、长上下文推理）的高阶服务收取溢价，从而实现利润最大化。

从估值层面看，中国AI科技股如阿里巴巴、腾讯控股估值均在15倍左右，美国同类（微软/亚马逊/谷歌）约27倍，差额较大。这是因为市场仍用“传统互联网”而非“AI云”框架定价。未来企业被Agent绑定的“迁移成本”能支撑更高的利润率中枢时，有望驱动市场重新定价。

模型厂商也在转向分层定价。轻量模型负责走量，承接可蒸馏、可缓存、可替代的通用流量；旗舰模型负责守价，锁定编程、长上下文、复杂推理和Agent协作等高价值场景。智谱GLM-4.7与GLM-5.1之间约3倍的价差，就是这种分层定价的缩影。

走生态路线的厂商，如阿里通义、字节豆包更倾向于把模型能力嵌入云和平台生态，通用档压价，后续靠Agent开发平台、企业服务和云资源消费变现。

走高端能力路线的厂商，则更看重旗舰模型在高价值场景中的付费能力。它们未必要卷最低价，但要证明自己的不可替代性。

从估值层面看，市场交易的是“AGI叙事”而非当期业务。如智谱顶着“全球通用大模型第一股”光环，市销率高达1000倍，脱离基本面。一旦业绩兑现不及预期（算力瓶颈、开源竞争、企业采用放缓），面临大幅回调风险。（注：①6月18日收盘，市值约9300亿港元，2025年营收7亿；②因为亏损，所以用市销率估值）

运营商的Token套餐则是另一种打法。中国移动、中国电信、中国联通把AI算力包装成类似“流量包”的产品，优势在于用户触达和计费体系。但这类模式能否真正赚钱，还要看其数据中心、电力和上游模型成本，能否被规模摊薄。只有智算收入占比持续提升、生态锁定能力被验证，估值才会有修复空间。

至于算力租赁商，虽然需求景气度高，但商业模式缺乏技术壁垒，本质是“买卡转租赚差价”，一旦供需逆转利润即刻崩塌。就像通用Token价格降了后，部分客户可能因为用云厂商的服务更省事、更便宜而不再续租。

如智谱2025年策略调整就是例证，从"租赁设备"为主转向算力服务商/云平台购买计算服务为主。从此维度看，数据港160倍的滚动市盈率不算低，安全垫较弱。

总体看，中游的格局已经比较清楚：有云生态、有模型能力、有企业服务能力的玩家，可以把通用Token当入口；缺乏技术壁垒的算力租赁，则会沦为被挤压的夹层。

（图表来源：妙投制作）

下游要嵌入场景通用Token降价后，下游并没有普遍迎来躺赢，而是出现了剧烈的分化。

简单AI写作、换脸工具、聊天等无壁垒的应用，竞争会越来越激烈。真正能吃到红利的，是有场景壁垒、用户粘性和付费闭环的公司。

这些场景包括AI办公、AI编程、法律合同审查、医疗报告生成、工业故障排查、金融信息服务等。它们有一个共同点：用户原本就有明确需求，AI的作用是在已有工作流里提高效率。

金山办公是典型代表。WPS原本就有用户、文档、订阅和企业客户，AI能力嵌入后，可以提升付费转化、企业客单价和产品粘性。2025年WPS AI国内月活突破8013万，同比暴涨307%，日均Token调用量超2000亿，同比增长超12倍。公司同期营收59.29亿元，毛利率高达85.95%。

要知道，金山办公的高毛利并非模型带来的，而是文档场景的护城河带来的。AI只是提高ARPU和粘性的增强器。没有场景壁垒的AI应用，反而容易沦为上游硬件和模型API的“打工仔”。

进一步从估值角度看，金山办公当下27倍左右的滚动市盈率，对比未来2年机构预期的归母净利润年复合增速11%左右看，通用Token降价利好已在估值中体现。未来随着付费率与留存继续提升，估值有望进一步走强。但一旦这两个数据拐头，溢价也会收窄。

此外，下游还有另一个变量：Token治理能力。

Agent工作流的复杂性，使企业账单不可预期。企业需要搞清楚哪个Agent最烧钱，哪个Prompt（任务说明书）导致上下文膨胀，哪个用户/功能/工作流在消耗Token，才能做调整和降本。

这使AI FinOps成为一个新机会。

所谓AI FinOps，指的是围绕模型调用、Token消耗、模型路由、缓存、上下文压缩、预算上限和熔断机制建立的一套成本治理能力。它解决的不是“要不要用AI”，而是“怎么大规模用AI而不被账单反噬”。

如，迅策科技正将业务延伸至LLM Observability，即大模型可观测性，用于跟踪模型调用、Token消耗和系统表现，相关业务推进值得持续观察。

从估值角度看，但该赛道目前处于极早期，市场尚未形成统一的估值锚。这类公司更可能参考SaaS的PS估值（5-10倍），后续可跟踪再验证。

所以下游真正的分水岭是“有没有场景壁垒”和“有没有Token治理能力”。有场景吃红利，没壁垒的公司被同质化竞争卷死；有Token治理能力的控住成本，没治理能力的公司则可能会被Agent调用量反噬。

写在最后综上，Token经济下，高估值的锚不仅是模型能力的边际提升，更是"AI算力通胀"下的物理瓶颈。

这轮变化的起点，是推理算力消耗的快速膨胀。Agent循环、长上下文、多模态任务带来的算力消耗大幅度增长时，市场的估值锚从"软件订阅逻辑"切换到了"硬件消耗逻辑"。

此背景下，产业链价值开始重构。真正的利润，将向具备稀缺性、定价权和现金流兑现能力的环节聚集。

短期看，当前确定性最高的产业机会集中在上游供给侧的硬约束资产，包括HBM、GPU、光模块、电力、液冷和数据中心基础设施等，这些资源决定了AI能否大规模运行。

中期看，弹性来自云厂商和模型厂商的分层定价能力，尤其是能否把通用Token调用量转化为企业级服务收入。通用模型低价获客，高价值能力分层变现，将成为中游玩家能否穿越价格战的关键。

长期看，最大价值仍会回到下游场景，只有真正嵌入工作流、掌握用户和数据闭环的AI应用，才能吃到产业成熟后的利润红利。此外，拥有Token FinOps，即算力成本治理能力的企业，也值得持续关注，因为企业需要知道AI的钱花到哪里去了，才好调整控本。

因此，未来AI产业的投资逻辑，不再是单纯比拼模型单价，更多是比谁能在价格分裂中找到自身不可替代的价值，从而保有定价权和利润份额。

【来源：快科技】

关于米哈游的新闻

17173不想再闭门造车了！想请您来【QQ群：1075303978】当“骨灰级体验官”。你觉得新版丑、难用、没内味？直接骂，我们听着。新功能你先用、改版方案你投票，有效反馈还能攒积分兑换点卡/周边好礼。 一键入群

今日热点

《冒险岛》领衔，盘点上半年上线的MMO

《归唐》19分钟实机演示《古剑》BOSS战演示

曾经的3D《DNF》回来了！它是否还值得一玩？

被骂半年终于下手《激战3》良心举措

热门测试游戏

品牌栏目

热门新闻排行

Wan网页游戏免费玩