比GPT-5.5便宜100倍，DeepSeek V4这波杀疯了

2026-04-25 15:54:29 神评论

17173 新闻导语

DeepSeek V4震撼发布：1.6万亿参数开源大模型，百万token上下文成本暴降73%！比GPT-5.5便宜100倍，代码能力超越GPT-5.4，国产芯片全适配。

4月24号，整个AI圈都被同一天的两场发布搅得坐不住了。

凌晨，OpenAI刚端上了GPT-5.5；

憋了8天，奥特曼深夜雪耻上架GPT-5.5，重回榜单第一

上午，跳票了三个月的DeepSeek V4终于掀了盖子。

一家继续讲闭源生产力系统，一家继续讲开源、长上下文和低成本推理。

中美AI产业中流量最大的两家基模公司，在同一天相遇。用TechWeb的话说，这是一场戏剧性的同框。

但真正让人睡不着觉的，不是同框这件事本身，而是V4交出来的这份答卷——它没按所有人的预期走。

一百万token的标配时代，就这么来了。

V4这次发了两个版本：旗舰V4-Pro，总参数干到1.6万亿，激活49B；经济型V4-Flash，总参数284B，激活13B。两个版本都原生支持100万token超长上下文，MIT协议完全开源。

1.6万亿参数是什么概念？

这比市面上所有已知的开源权重模型都大——Kimi K2.6的1.1万亿、GLM-5.1的7540亿、上一代V3.2的6850亿，全被甩在后面。

但参数堆量不是重点。DeepSeek在技术文档里对长上下文动了两把刀，这两把刀才是V4真正凶猛的地方。

第一把刀叫CSA，压缩稀疏注意力，决定什么东西值得认真看——先对所有token做粗筛，快速估算相关性排序，再精挑需要完整计算的部分。

第二把刀叫HCA，重度压缩注意力，决定看过的东西怎么存——把KV向量映射到低维潜空间，推理时再解压。

这套机制让模型处理长文本的逻辑彻底变了。以前的Transformer是文本长度每翻一倍，算力开销飙四倍。V4不再对所有token做全量计算，强关联的精读，弱关联的压缩或跳过。

效果怎么样？两个数字就能概括，在100万token上下文场景下，V4-Pro单token推理的FLOPs只有V3.2的27%，KV缓存占用只有10%。

27%的算力，10%的显存。不是略微优化，是数量级地往下砍。

DeepSeek官方说了一句话：从现在开始，100万token上下文将是所有官方服务的标配。长上下文从高端选配变成了默认能力，这对整个行业做Agent产品的成本结构，是一次重估。

你想想看，之前很多Agent跑起来像未来，一算成本就像灾难——上下文越长，计算和缓存负担越容易滚雪球。V4如果真能把这块成本压下来，影响的是整个Agent工具链。

不过有一说一，在2026年4月这个节点，百万上下文已经不是新鲜事了。Gemini、Qwen等都到了这个量级。V4要回答的不是能不能做到，而是做到了之后，成本撑不撑得住。从这个角度看，V4用这两把刀给出了一个相当硬核的回答。

跑分这块，V4交出的成绩单够亮眼。

在LiveCodeBench（真实世界的活题库）上V4-Pro-Max跑出93.5分，直接把GPT-5.4的91.7和Gemini-3.1-Pro的89.2踩在脚底下。Codeforces（算法竞赛的段位图）评分3206，排在人类选手第23名。

数学也不虚。竞赛数学基准HMMT 2026 Feb中，V4-Pro-Max拿了95.2分，跟Opus-4.6 Max的96.2差距极小。Apex Shortlist得分90.2，超过所有同场对比的模型。

第三方评测机构给的说法更直接。Arena.ai把V4 Pro定性为相较DeepSeek V3.2的重大飞跃。Vals AI说V4在Vibe Code Benchmark上以压倒性优势拿下开源权重模型榜首，不仅拍翻了第二名Kimi K2.6，连Gemini 3.1 Pro这种闭源选手也一并拿下。

最离谱的是这个数字是V4相比V3.2实现了约10倍的性能跃升。Vals AI特意强调——V3.2在该基准上只拿了5分，这不是笔误。

但跑分归跑分，落地体验才是最真实的试金石。

V4-Pro能连续自主编程60分钟以上，中间完全不用人管，自己规划、自己纠错、自己调用工具，把复杂的数据库设计和安卓模拟器开发这类工程任务从头到尾干完了。

DeepSeek内部已经把V4当主力Agentic Coding工具在用，体验优于Claude Sonnet 4.5，交付质量能摸到Opus 4.6非思考模式的边。

我用人话翻译一下就是你丢给它一个需求，它可以自己读完代码仓库、自己改、自己跑测试、自己保存状态继续往下走。中间卡壳了自己想办法解决。这对程序员的日常意味着什么，懂的人都懂。

但也有让人冷静的地方。

在SimpleQA-Verified这种深度知识测试上，V4-Pro拿57.9分，Gemini-3.1-Pro拿75.6分，差距相当明显。HLE高难度推理上，37.7对比Gemini的44.4。

世界知识这块，V4大幅领先Kimi K2.6 Thinking、GLM-5.1 Thinking这些开源模型，但跟Gemini-Pro-3.1比还是谦虚了一点。问一下常识问题它答得不错，还会主动补上一些近年的数据变化，显得像一个善于跟进的读者而不是一本死背的字典。

最出彩的是代码和Agent，最需要补课的是广域知识和超深度推理。这个格局，V4自己认得很清楚。

一般来说，大模型发布时，厂商的话术都恨不得把天花板吹穿。但这次DeepSeek在58页的技术报告里说了这么一段话，让我反复读了好几遍。

V4-Pro的知识与推理能力已超越主流开源模型，接近Gemini等闭源系统，但与最先进的前沿模型仍存在约3至6个月的差距。在数学和STEM方面进度最快，在知识和事实检索方面差距最远。

在Agent能力上更坦率，内部使用体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但跟Opus 4.6开了思考模式后，仍然有让人服气的差距。

这种不打鸡血的克制，在国产大模型的发布话术传统里相当少见。但恰恰因为这样，反而显得自信——知道自己的长板在哪，也不遮短板。有几斤几两，心里有数。

更耐人寻味的是，V4目前没有原生多模态。在2026年这个节点，同行几乎全都在推图、文、代码融合，DeepSeek交出来的还是一份纯语言模型的卷子。原因不复杂，一方面是算力成本的硬约束，另一方面显然是把最核心的战斗资源全押在长上下文和Agent能力上，做深度压制。暂时放弃多模态的理解与生成，策略上是轻装上阵，但在开发者的体感上，多少留了个缺口。

技术说完了，但V4真正可能改写游戏规则的，是价格。

API定价：Flash版输入1元/百万token，缓存命中只要两毛，输出2元。Pro版输入12元，输出24元。

而前一天刚上线的GPT-5.5，每百万输出token定价30美元，折合人民币超过200元。跟V4-Flash的2块钱输出价比，差距超过100倍。

Claude Opus 4.7的输出价更离谱，V4-Flash比它便宜了99%以上。

这不是一次促销。往回看三代产品，DeepSeek画出了一条陡峭的成本下降曲线。V2的训练成本是GPT-4 Turbo的1/70，V3是GPT-4的1/14，R1是GPT-4o的1/20。每代都在往下打一个数量级。

当然这组数字也有争议。谷歌DeepMind的头儿哈萨比斯说DeepSeek的成本被报小了，分析机构估算DeepSeek在硬件上花了远超5亿美元，600万美元只是GPU租用成本。但即便把争议算进去，DeepSeek在单次训练成本上的优势依然是数量级的。它依然便宜得离谱。

而且价格还不是终点。DeepSeek自己说了，当前高端算力比较吃紧，Pro的服务吞吐量暂时有限。等下半年昇腾950超节点大规模铺货之后，价格还要再往下拉一大截。

昇腾上跑通了，这一拳打在了最硬的地方

说到昇腾，这可能是V4这次最被低估但后劲最大的变量。

技术报告明确写入了华为昇腾NPU与英伟达GPU在细粒度专家并行方案上的并列验证，在通用推理负载下实现了1.50-1.73倍的加速比。这是全球首个在国产算力底座上完成训练与推理的万亿参数级模型。

这句话说人话就是V4彻底跑通了国产芯片的全栈适配，从训练到推理，硬件底座不需要英伟达的CUDA也能转。

同期，智源研究院的FlagOS在V4发布几小时内，就完成了Flash版在八款不同芯片上的全量适配，包括海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数、英伟达。芯片生态被拉通的速度比模型发布本身还快。

DeepSeek团队为这套国产化方案付出的工程代价也不小：耗时数月重写了两百多个核心算子，把模型底层代码从英伟达CUDA迁移到了华为CANN。

黄仁勋在播客里说，这件事是灾难性的。

他的意思不难理解——英伟达的护城河从来不是GPU算力本身，而是CUDA作为默认起点的软件生态位。当CUDA不再是必选项，这道护城河正在被填平。

对中国AI产业来说，这是一针实实在在的强心剂。以前总有人问，中国AI能不能摆脱对那几块卡的依赖？V4给出的答案是不仅摆脱了，而且在受限条件下批量跑通了工程落地的技术路线。

大模型现在到底在卷什么？

同一天，可灵AI也搞了个动作——在视频3.0系列里推出了原生4K直出功能，一键输出院线级质感视频，不用再做复杂的后期超分处理。以前做4K得先生成低清再超分上去，画面稳不稳全看运气。现在从肚子里直接输出4K，门槛又被踩碎了一块。

4月底这几天的密集发布，把大模型这半年到底在卷什么这个问题，推到了最前线。

在卷多模态。

文本卷完了卷图片，图片卷完了卷视频。

GPT-image-2刚把文字渲染拉到99%的准确率，Arena榜单上跟第二名的分差拉到242分，可灵紧跟着就把视频分辨率顶到了原生4K。现在AI生成的菜单可以直接拿去印刷，生成的短视频能对标院线级画质。Adobe Illustrator那个填满滚滚长江东逝水的占位符梗，开始变得越来越像黑色幽默。

在卷Agent能力。

模型能不能自己读完代码仓库、自己改代码、自己跑测试、自己继续下一步——这条链路上的每一个环节都在被重新定义。

V4把长上下文推理成本砍到27%，某种程度上就是在给Agent铺路。毕竟让一个Agent背着满配KV缓存干活，跟让一个程序员用16GB内存的老电脑跑全栈开发差不多。

在卷性价比。

DeepSeek把价格打到竞品的百分之一，英伟达的护城河被挑战，国产芯片的生态高速闭环——整条食物链都在重构。

AI正在快速从奢侈品变成自来水。这种平民化正在倒逼整个产业重新回答一个根本问题：当所有人都能便宜地调用世界顶级模型时，真正的稀缺资源到底是什么？答案正在从模型本身，转向数据沉淀、场景创新和垂直行业的深度绑定。

在卷内容工业的供应链瓦解和重建。

当文本、代码、图像、视频的生产体系被四天出片、一小时出应用的工作流同时刷新，这场狂飙里的底牌反而是软实力。未来视觉内容产业的硬通货，不再是能不能做出来，而是脑子里那道独有的审美与判断——你提出怎样的方向，什么时候收手。

但V4不是完美的模型。

它没有多模态，它在世界知识上还有差距，它在深度推理上仍然追着Opus的思考模式在跑，Pro版受限于算力目前服务吞吐有限。

但它的意义不在于某一场评测胜利。而在于它证明了一件很多人怀疑过的事，在算力受限、芯片受限、训练成本被压到极致的条件下，一个从底层架构开始重新设计的国产开源模型，依然能找到缝子钻进去，并且在代码和Agent这两个最硬核的方向上，追到跟全球第一梯队平起平坐的位置。

而且是用MIT协议完全开源的方式。这意味着任何团队都能把1.6万亿参数的大模型拿过来随便改、随便商用，不用付一分钱。对整个开发者生态来说，这是一次底层的平权。

V4团队的克制自评，某种程度上反而比那些吹上天的发布更让人信服。他们知道自己还有三到六个月的路要追，但他们也知道，长上下文效率这条线，他们已经冲到了全球最前面。

打个比方。以前的AI竞赛像短跑，谁先冲到终点谁赢。现在变成了一场接力赛，每一棒都在不同的赛道上——这一棒是代码，下一棒是Agent，再下一棒是世界知识和多模态。V4在代码和长上下文这两棒上交出了一个让人服气的成绩，剩下的，交给时间和算力去补。

写完这篇文章之后，我看到一条读者评论被很多人点赞，大意是：没有DeepSeek的负重前行，哪有这么便宜的海外模型用，和国内大模型的百花齐放。

这句话抓到了本质。

当有人愿意用开源和极致性价比把底座打穿，整个生态都会受益。V4不是让所有人都惊呼牛逼的模型，但可能是让对手最睡不着觉的那一个，因为它画出的这条成本下降曲线和效率提升曲线，指向的不只是某个产品的成败，而是一个正在被重新定价的行业的未来。

【来源：公众号】

关于DeepSeek V4,GPT-5.5,AI,大模型,开源,长上下文,Agent,代码,推理,价格的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

《冒险岛》怀旧服首测今日开启，还有网易发布会

网易520发布会开幕《怪物猎人：旅人》启程测试

备受期待MMO即将内测！5月新增搬砖网游一览

《七界梦谭》二测开启《魔兽》乌龟服正式关服

热门测试游戏

品牌栏目

热门新闻排行

Wan网页游戏免费玩