MoE
-
“DeepSeek-V3基于我们的架构打造” 欧版OpenAI CEO逆天发言被喷了
“DeepSeek-V3是在Mistral提出的架构上构建的。”欧洲版OpenAI CEO此言一出,炸了锅了。网友们的反应be like:这还是温和派,还有更直接的吐槽:Mistral在胡说八道些什么……还没吃上瓜的家人们别...[详细]
2026-01-26 16:59:56 -
算力大杀器!中科曙光发布全球首个单机柜级640卡超节点
今日,中科曙光宣布正式发布全球首个单机柜级640卡超节点scaleX640。scaleX640超节点采用“一拖二”高密架构设计,不仅实现了单机柜640卡超高速总线互连,构建大规模、高带宽、低时延的超节点通信域,还可通过双...[详细]
-
两块RTX 4090竟能本地微调万亿参数Kimi K2!算力门槛被我们击穿了
微调超大参数模型,现在的“打开方式”已经大变样了:仅需2-4 张消费级显卡(4090),就能在本地对DeepSeek 671B乃至Kimi K2 1TB这样的超大模型进行微调了。你没有看错。这要放以前啊,各路“炼丹师”是想都不敢...[详细]
2025-11-05 22:59:42 -
小米AI新论文!雷军曾用千万年薪要挖的DeepSeek天才少女署名
还记得去年底引发热议、上热搜的“95后AI天才少女”罗福莉吗?据媒体报道,小米和北京大学联合署名的论文近日发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,就出现在了...[详细]
-
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
英伟达还能“猖狂”多久?——不出三年!实现AGI需要新的架构吗?——不用,Transformer足矣!“近几年推理成本下降了100倍,未来还有望再降低10倍!”这些“暴论”,出自Flash Attention的作者——Tr...[详细]
2025-09-29 22:21:09 -
训练MoE足足提速70% 华为只用了3招
Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。不过,在高效实现模型参数规模化的同时,MoE的训练难题也日益凸显:训练效率不足,甚至一半以上训练时间都浪费在“等待”上。现在,为...[详细]
热门标签
最终幻想14 7.41版本崩溃之星俄匊斯攻略
Straima
POLARIS? - 北极星?
密室逃脱 ep2:废弃学校篇
密室逃脱 ep1:熊当劳汉堡的奇妙物语篇
盖罗尔特
崩溃之星俄匊斯
通灵塔2
行星探索
荒镇 返家
藤子·F·不二雄奇想故事集
宇宙工具
建设计划
Last Stop
Card-en-Ciel 天穹卡牌录
弹球大冒险
武器强化任务
Dark ill 暗黑蛊国
密室逃脱 ep3:热带度假村篇?
FF14 7.41幻境武器强化任务指南
7.41版本
密室逃脱 ep4:电视台密切跟踪24小时篇
明日方舟终末地抽卡爆率分析
蒸汽上升
射击农场未加密版
基建玩法
飞飞无限宇宙原汁原味经典玩法
射杀僵尸
Wildermyth
Towaga: Among Shadows