比预期还要高60% DeepSeek V4参数量有望达到1.6万亿
DeepSeek V4参数量有望达1.6万亿,比预期高60%!揭秘Mega MoE架构升级,性能或将实现质的飞跃。点击了解最新技术突破!
距离4月下旬没有几天了,DeepSeek V4大模型的发布牵动人心,昨天该公司研究人员突然更新了DeepGEMM算子库,被视为V4发不动的千兆。
然而他们显然也预料到了外界的反应,更新之后还额外添加了一个说明,强调这次更新只与DeepGEMM开发相关,跟内部模型发布无关,就是说大家不要多想,这不代表着V4要发了。

不过越是这样声明,越让大家对DeepSeek V4感兴趣了,因为DeepGEMM这波更新的亮点挺多,不可能跟V4大模型没关系。
这次的更新除了支持了FP8_FP4混合算子及优化了对NVIDIA Blackwell的支持之外,架构上升级主要是Mega MoE及HyperConnection,其中Mega MoE有可能会带来MoE架构的一次重磅升级。
Mega MoE的好处很多,网上有不少解释了,Gemini的解析暗示V4的激活专家数量会比V3的256个大幅提升,可能是数千个,如此一来显然会极大地提升V4的性能,同时又维持灵活性,不会对算力和显存有夸张的需求。

更重要的一点,DeepGEMM这次的更新还暗示了V4大模型的参数量,网友表示单层MoE大约是25.37B,如果还是60层,那V4大概率是1.6T的大模型,再不济也是48层1.25T的大模型。
对比之前V4是个1T万亿参数的传闻,1.6T参数量意味着比之前的预期还要高60%,那性能表现就非常值得期待了。
万一1.6T没实现,1.25T参数量也会比当前V3的6700亿参数量翻倍,依然可以期待下表现,毕竟Mega MoE技术再做到数千个激活专家,那绝对是一次蜕变,改变MoE架构大模型发展的里程碑事件。

- 1快手做MMO、祖龙做卡牌,谁才是“诡秘”IP的正确打开方式?
- 2《激战3》官方确认MMORPG定位 不走二代大规模团战路线
- 3第三支预告片要来了?R星移除《GTA6》第二支预告"全新"标签
- 4比肩《GTA5》?外媒盛赞《黑神话:悟空》3000万销量
- 5出个泳装又给冲了?《守望先锋》女角色皮肤陷入争议
- 6魔兽故事:笑死!魔兽“吃饭睡觉打巨魔”的锅,一半都要扣在这哥们头上
- 7《碧蓝幻想:Relink 无尽黄昏》制作人访谈:不输本体的全新体验
- 8开宗立派做掌门!《逆水寒:新世界》超大新版本即将上线
- 9一封作弊道歉信,揭开了国内游戏社区最不堪的一面
- 10离谱大瓜!三角洲头部主播轻信5亿画饼反被骗20万

