Token低价陷阱
Token价格暴跌99%?企业AI成本反飙升!揭秘产业链谁在赚钱:HBM、光模块、液冷成赢家,云厂商分层定价,有场景壁垒的应用吃红利。避开低价陷阱,看透AI算力通胀下的投资机会。
大模型确实越来越便宜,但企业使用AI这件事,正在变得越来越贵。
这听起来矛盾,却是当下Token经济最真实的一面。
以OpenAI公开定价为锚,2023年3月GPT-4发布时每百万Token输入30美元/输出60美元,到2024年5月GPT-4o发布时降至5美元/15美元,再到今天,大量够用级推理模型已经把价格打到每百万Token几毛美元甚至更低。
如果以早期GPT-4价格作为高位锚点,部分通用推理Token价格在三年内最高降幅达99%。
这也是过去两年行业最流行的判断:大模型会像带宽一样,越用越便宜。
但进入2026年,这个判断只说对了一半。便宜的是部分模型Token价格,企业的AI运营总支出并未缩减。
原因在于,通用Token价格虽然在探底,企业却正从简单问答转向Agent协作、代码生成等复杂工作流,而这类任务的Token消耗量往往是简单问答的十倍甚至百倍,导致算力总支出膨胀。
由此形成价格撕裂期:通用Token在探底,高价值能力在分层,企业AI支出在调用结构中膨胀。
但这种膨胀并非雨露均沾,而是沿着芯片、光模块、云平台直至应用等产业链环节,进行重新分配。在投资视角下,这种价格分裂的本质,是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景,谁就更有机会在Token用量爆发中持续收费。
本文试图回答一个更现实的问题:在这场价格撕裂中,AI产业链中谁在真正赚钱,谁被成本和价格战挤压?
谁在真正赚钱?过去两年,简单问答、摘要、翻译、分类等通用任务,在MoE架构、缓存、蒸馏和推理优化推动下,成本在逼近“水电价”。
这些任务有几个共同特征:可预期、可缓存、可替代、对模型能力要求不极致。这类Token最容易被技术优化,也最容易被价格战打穿。它们正在从“AI能力”变成“基础设施能力”。所谓99%的降价红利,主要发生在这一层。
但企业真正花钱越来越多的地方,并不在这里,更多集中在编程、Agent协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来,重新按“旗舰能力”计费。
以智谱为例,其GLM-5.1对准编程与Agent场景,输入价格为每百万Token 6-8元,输出价格为24-28元;日常轻量任务则建议继续用GLM-4.7,输入价格为2-4元,输出价格为8-16元。两者价差约3倍。
这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量,低价获客;同时开始向编程、Agent、复杂推理、多模态这类场景要利润。
与此同时,底层的物理成本并未跟随通用Token的降价变化。HBM价格高位运行、数据中心电力与液冷成本高企,这些硬约束迫使阿里、腾讯、百度等云厂商在3月罕见上调了AI算力服务价格。
即,当可压缩场景的Token成本不断探底,不可压缩场景的算力成本依然坚挺,这正是企业算力支出失控的底层推手之一。
但更大的问题,不是单价,是用量膨胀。
过去企业用大模型,大多是一问一答,单次调用成本相对可控。
现在更多付费场景变成了Agent协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下,即使Token单价下降,但单轮单次任务消耗的Token数量可能放大十倍、几十倍的情况下,企业AI运营总成本反而可能上涨。
这是为什么一些企业在大规模开放AI编程工具后,很快遇到预算失控问题。
如Uber在为5000名工程师开放AI编程工具后,仅4个月便烧光了2026全年预算;国内米哈游技术团队负责人郑银河在2026年5月阿里云峰会上公开披露,团队一位工程师测试多Agent协作时,因未设熔断、数十个Agent进入循环调用,费用飙升,13小时内收到200万元Token账单。
正是这三层结构的叠加,导致了“99%降价”与“企业AI更贵”的共存。
而企业多花出去的钱,并没有消失,它变成了产业链上某些环节的收入和利润。
因为通用Token越便宜,越容易刺激企业把AI推向更复杂、更高频、更重算力的场景;而这些新增需求,最终会流向芯片、光模块、云平台、高价值模型API、应用场景和基础设施等。
即,真正赚钱的,不是卖便宜Token的人,是能从Token用量爆发里持续收费的人。这是理解当下AI产业链分化的关键。
接下来,对产业链上中下游分别展开讨论。

上游要卡住瓶颈Token经济下,AI产业链的上游由计算芯片(GPU/NPU/LPU,加速器)、高速存储(HBM)、高速互联(含光模块)、智算中心基础设施(供电、冷却)等构成,这些环节决定Token生成的速度、稳定性和单位成本。
但上游并不是一块铁板。真正掌握定价权的,是那些卡住了物理瓶颈的环节。
首先是GPU和HBM。
随着Agent与多模态处理的发展,瓶颈不再局限于算力,更在于显存容量、带宽和数据搬运能力。HBM产能周期长、扩产慢(一般需24–36个月),又被大客户长协锁定,供给刚性直接转化为利润护城河。
海外三大存储巨头(SK海力士、三星和美光)凭借HBM,将DRAM综合毛利率拉回50%+,其中SK海力士2025年Q4的毛利率已达69%。
更关键的是,稀缺的HBM带宽通常不单独出售,而是被封装进GPU加速卡、整机和高速互联系统中,最终以整套计算系统的出售溢价体现出来。因此,最厚的利润池并非单一的HBM或GPU,而是“GPU+HBM+独家互联技术”打包在一起的套餐。
不过,国内破局之路尚处起步,长鑫存储作为唯一DRAM IDM(设计+制造一体化),正以低毛利换良率爬坡,攻坚HBM供给瓶颈;摩尔线程、沐曦、壁仞、燧原科技等GPU厂商则试图通过自研架构与开放互联标准(如OISA),在英伟达体系外构建可用的国产算力底座。
从估值层面看,资本市场对于HBM赛道的追捧主要来自于供给紧张。只不过,据长城证券测算,2025-2026年全球HBM供需比分别为45%和27%,缺口确实存在,但有所收窄。这意味着估值锚正在从"有没有货"移向"高端占比与毛利率能不能守得住"。未来一旦HBM产能扩张速度超过需求增速,估值逻辑将会变化,届时需注意下调风险。
至于GPU赛道,AI算力需求仍在情况下,资本市场仍会活跃。只不过,已经过了“讲故事”的阶段,转向“业绩检验期”。如数据中心收入质量、下一代架构的出货锁单、以及单位Token成本下降是否会压低"按集群付费"的天花线等都会被检验。未来任何关于“增速边际放缓”的信号,可能都会导致估值回调。

其次是光模块。
AI集群不是简单堆砌GPU,单服务器内、跨服务器节点间、乃至跨数据中心的互联能力,共同决定了算力能不能真正跑起来。800G向1.6T光模块升级,本质上是Token海量爆发后对更高带宽、更低延迟的刚性需求,这是该赛道走强的重要驱动因素。
所以,这一环节依靠“高端规格迭代+客户认证壁垒”构筑护城河,头部厂商如中际旭创、新易盛的毛利率已从早年30%左右攀升至40%以上。
但要注意的是,中际旭创、新易盛等企业的前五大客户收入贡献均超7成,客户集中风险比较高,任何一个大客户的订单波动都会影响全年业绩。且这种情况下,光模块企业的议价能力较弱。未来若1.6T的放量速度不及预期,或买方议价让平均售价阶梯下行速度快于成本降幅,利润增速可能会面临拐点。
而中际旭创、新易盛分别为102倍何75倍的滚动市盈率,近5年历史分位数均在94%以上,意味着市场已把"未来2-3年高增+份额不丢"提前付款,安全边际薄。
再就是电力与散热。当单卡功耗继续上升,传统风冷接近物理极限,液冷从可选项变成刚需。而高密度机柜的稳定运行,则依赖于园区级供电容量的冗余与效率。这一环节是典型的“资本开支驱动+交付能力壁垒”。
英维克凭借全栈液冷技术绑定头部算力集群,资本市场上确实享有高溢价。但英维克当下196倍的滚动市盈率,近5年历史分位数94%,处于估值高位。这意味着市场已经把2026年全年的液冷放量充分定价,甚至透支了部分2027年的预期。未来一旦招标价松动或对手报价拉低毛利,估值回调风险会比较大。
而特锐德是全球最大的预制舱式变电站制造商,近期推出的”算电岛”方案,通过高压直入与800V直流供电,可将Token的用电成本降低约30%,这一叙事受到市场较多关注。但估值能否从电力设备向AI基础设施迁移,取决于下半年算电岛的订单和交付数据。
位于产业链末端的服务器系统集成与组装,便是典型的“量大、利薄”赛道。

以国内AI服务器出货龙头浪潮信息为例,其主业本质是“品牌整机+JDM联合设计制造”平台。一台AI服务器的物料成本里,大部分被上游GPU、存储芯片锁定,下游又面临云厂商的强势议价,导致其毛利率较低,2025年仅5%左右。它更像是“高级搬运工”,在上下游的夹缝中赚取辛苦钱。
所以,上游各赛道表面看都在涨,底层逻辑却不同:
(1)HBM/GPU:不可替代性来自物理硬约束(产能周期、技术壁垒、生态锁定),溢价有"供给刚性"托底,但需警惕产能扩张后的供需逆转。
(2)光模块/液冷:不可替代性更多建立在“1.6T升级、云厂商资本开支扩张”,即需求持续超预期的假设上。弹性最大,但一旦预期落空,跌幅也最猛。客户集中和价格下降是始终悬在头上的风险。
(3)电力、液冷:有刚需的安全边际(电网准入、市占率、交付能力),也有AI增量需求的弹性预期。AI叙事顺利时,它跟着涨;叙事出问题时,它也会跌,但跌幅相对可控。
(4)服务器组装:不具备不可替代性,没有定价权,毛利率常年徘徊在个位数。出货量增长时跟随行业Beta上涨,但一旦下游砍单或库存调整,估值会迅速压缩。市场给它的更多是“低毛利高周转的周期加工厂”估值。
上游投资的本质,是判断"不可替代性"的成色:物理约束越硬,安全边际越高;叙事依赖越强,波动越大;什么都没有,就只能赚辛苦钱。

(图表来源:妙投制作)
中游要锁定生态上游划定了算力的物理成本和稀缺性,但真正把算力变成可售卖、可计费、可被普通开发者调用的“服务”的,是中游的云厂商、算力租赁平台、大模型供应商以及运营商。(云厂商、算力租赁平台虽涉足上游基础设施建设,但其核心利润来源于中游的平台调度与生态锁定,故归入中游)
这一环节的核心逻辑通过分层定价实现利润最大化,不再是“越便宜越好”。
云厂商的做法最典型。阿里、腾讯、百度等云厂商下调通用模型价格,并不意味着愿意长期亏钱。对云厂商来说,通用模型只是入口,真正的利润池在后面:云数据库、云存储、云专线、安全、弹性算力、专属推理实例和行业解决方案。
因此,当云厂商上调部分AI算力服务价格时,涨的往往不是普通聊天Token,而是更接近企业生产环境的高消耗服务:专属集群、弹性算力资源、高可用保障和企业级部署能力等。
当企业被Agent的循环调用绑定在阿里或腾讯等云生态时,平台收取的费用由“算力费"转为”企业生产流水的过路费"。这种估值锚是"迁移成本"。
这正是分层定价的体现:用低价的通用模型抢占入口,再对真正支撑企业级业务(如运行Agent、长上下文推理)的高阶服务收取溢价,从而实现利润最大化。
从估值层面看,中国AI科技股如阿里巴巴、腾讯控股估值均在15倍左右,美国同类(微软/亚马逊/谷歌)约27倍,差额较大。这是因为市场仍用“传统互联网”而非“AI云”框架定价。未来企业被Agent绑定的“迁移成本”能支撑更高的利润率中枢时,有望驱动市场重新定价。
模型厂商也在转向分层定价。轻量模型负责走量,承接可蒸馏、可缓存、可替代的通用流量;旗舰模型负责守价,锁定编程、长上下文、复杂推理和Agent协作等高价值场景。智谱GLM-4.7与GLM-5.1之间约3倍的价差,就是这种分层定价的缩影。
走生态路线的厂商,如阿里通义、字节豆包更倾向于把模型能力嵌入云和平台生态,通用档压价,后续靠Agent开发平台、企业服务和云资源消费变现。
走高端能力路线的厂商,则更看重旗舰模型在高价值场景中的付费能力。它们未必要卷最低价,但要证明自己的不可替代性。
从估值层面看,市场交易的是“AGI叙事”而非当期业务。如智谱顶着“全球通用大模型第一股”光环,市销率高达1000倍,脱离基本面。一旦业绩兑现不及预期(算力瓶颈、开源竞争、企业采用放缓),面临大幅回调风险。(注:①6月18日收盘,市值约9300亿港元,2025年营收7亿;②因为亏损,所以用市销率估值)
运营商的Token套餐则是另一种打法。中国移动、中国电信、中国联通把AI算力包装成类似“流量包”的产品,优势在于用户触达和计费体系。但这类模式能否真正赚钱,还要看其数据中心、电力和上游模型成本,能否被规模摊薄。只有智算收入占比持续提升、生态锁定能力被验证,估值才会有修复空间。
至于算力租赁商,虽然需求景气度高,但商业模式缺乏技术壁垒,本质是“买卡转租赚差价”,一旦供需逆转利润即刻崩塌。就像通用Token价格降了后,部分客户可能因为用云厂商的服务更省事、更便宜而不再续租。
如智谱2025年策略调整就是例证,从"租赁设备"为主转向算力服务商/云平台购买计算服务为主。从此维度看,数据港160倍的滚动市盈率不算低,安全垫较弱。
总体看,中游的格局已经比较清楚:有云生态、有模型能力、有企业服务能力的玩家,可以把通用Token当入口;缺乏技术壁垒的算力租赁,则会沦为被挤压的夹层 。

(图表来源:妙投制作)
下游要嵌入场景通用Token降价后,下游并没有普遍迎来躺赢,而是出现了剧烈的分化。
简单AI写作、换脸工具、聊天等无壁垒的应用,竞争会越来越激烈。真正能吃到红利的,是有场景壁垒、用户粘性和付费闭环的公司。
这些场景包括AI办公、AI编程、法律合同审查、医疗报告生成、工业故障排查、金融信息服务等。它们有一个共同点:用户原本就有明确需求,AI的作用是在已有工作流里提高效率。
金山办公是典型代表。WPS原本就有用户、文档、订阅和企业客户,AI能力嵌入后,可以提升付费转化、企业客单价和产品粘性。2025年WPS AI国内月活突破8013万,同比暴涨307%,日均Token调用量超2000亿,同比增长超12倍。公司同期营收59.29亿元,毛利率高达85.95%。
要知道,金山办公的高毛利并非模型带来的,而是文档场景的护城河带来的。AI只是提高ARPU和粘性的增强器。没有场景壁垒的AI应用,反而容易沦为上游硬件和模型API的“打工仔”。
进一步从估值角度看,金山办公当下27倍左右的滚动市盈率,对比未来2年机构预期的归母净利润年复合增速11%左右看,通用Token降价利好已在估值中体现。未来随着付费率与留存继续提升,估值有望进一步走强。但一旦这两个数据拐头,溢价也会收窄。
此外,下游还有另一个变量:Token治理能力。
Agent工作流的复杂性,使企业账单不可预期。企业需要搞清楚哪个Agent最烧钱,哪个Prompt(任务说明书)导致上下文膨胀,哪个用户/功能/工作流在消耗Token,才能做调整和降本。
这使AI FinOps成为一个新机会。
所谓AI FinOps,指的是围绕模型调用、Token消耗、模型路由、缓存、上下文压缩、预算上限和熔断机制建立的一套成本治理能力。它解决的不是“要不要用AI”,而是“怎么大规模用AI而不被账单反噬”。
如,迅策科技正将业务延伸至LLM Observability,即大模型可观测性,用于跟踪模型调用、Token消耗和系统表现,相关业务推进值得持续观察。
从估值角度看,但该赛道目前处于极早期,市场尚未形成统一的估值锚。这类公司更可能参考SaaS的PS估值(5-10倍),后续可跟踪再验证。
所以下游真正的分水岭是“有没有场景壁垒”和“有没有Token治理能力”。有场景吃红利,没壁垒的公司被同质化竞争卷死;有Token治理能力的控住成本,没治理能力的公司则可能会被Agent调用量反噬。
写在最后综上,Token经济下,高估值的锚不仅是模型能力的边际提升,更是"AI算力通胀"下的物理瓶颈。
这轮变化的起点,是推理算力消耗的快速膨胀。Agent循环、长上下文、多模态任务带来的算力消耗大幅度增长时,市场的估值锚从"软件订阅逻辑"切换到了"硬件消耗逻辑"。
此背景下,产业链价值开始重构。真正的利润,将向具备稀缺性、定价权和现金流兑现能力的环节聚集。
短期看,当前确定性最高的产业机会集中在上游供给侧的硬约束资产,包括HBM、GPU、光模块、电力、液冷和数据中心基础设施等,这些资源决定了AI能否大规模运行。
中期看,弹性来自云厂商和模型厂商的分层定价能力,尤其是能否把通用Token调用量转化为企业级服务收入。通用模型低价获客,高价值能力分层变现,将成为中游玩家能否穿越价格战的关键。
长期看,最大价值仍会回到下游场景,只有真正嵌入工作流、掌握用户和数据闭环的AI应用,才能吃到产业成熟后的利润红利。此外,拥有Token FinOps,即算力成本治理能力的企业,也值得持续关注,因为企业需要知道AI的钱花到哪里去了,才好调整控本。
因此,未来AI产业的投资逻辑,不再是单纯比拼模型单价,更多是比谁能在价格分裂中找到自身不可替代的价值,从而保有定价权和利润份额。
- 1王祖贤致天下少侠:期待相遇于大荒!18周年专属问候请查收
- 2光影细节拉满!国产虚幻5大作《诡秘之主》全新实机视频曝光
- 3取消点卡,《逆水寒》想给经典MMO一个新答案?
- 4人宠合一!《伊莫》实机曝光,抓宠开放世界终于有新活了
- 5等了十年!《彩虹六号》国服终于开测,这十年到底卡在哪?
- 6《三国杀》IP首款战棋游戏《三国杀:天命棋局》6月18日开启测试
- 7离了大谱的网游!《Sol: Enchant》吹过的牛逼到底有多牛逼?
- 8狂卖1600万份后,《弧光猎人》是怎么理解“撤离射击”这个品类的?
- 9《无冕余烬》流放之路+方舟?从养成内核到后续游玩搬砖评估!
- 10韩国像素MMO新作《鬼怪世界》公开世界观,预约7月开启

