-
宣称“从 0 构建”,印度 AI 实验室 Sarvam 发布两款 MoE 架构 LLM
2 月 20 日消息,印度 AI 实验室 Sarvam 当地时间本月 18 日在印度人工智能影响力峰会上发布了 2 款“从 0 构建”的最新一代 MoE 架构大语言模型。这两款模型即将在 Hugging Face 上以开源权重的形式提供,API 访问和仪表盘...[详细]
-
京东开源 JoyAI-LLM-Flash 大模型:总参数 48B,激活参数 3B
感谢网友 软媒用户389454 的线索投递! 2 月 15 日消息,京东昨天在 Hugging Face 平台开源了 JoyAI-LLM-Flash 大模型,拥有 3B 激活参数以及 48B 总参数,在 20 万亿文本 Token 上进行预训练,擅长前沿知识...[详细]
2026-02-16 02:06:39 -
暴降 90%!英伟达 Blackwell 架构将 AI 推理成本压缩至十分之一
2 月 13 日消息,英伟达昨日(2 月 12 日)发布博文,宣布在 AI 推理领域的“token 经济学”(Tokenomics)方面,其 Blackwell 架构取得里程碑式进展。英伟达在博文中指出,通过推行“极致软硬件协同设计”策略,优...[详细]
2026-02-13 16:08:30 -
从县城少年到1690亿市值掌舵人:他如何用三年创造全球最快AI上市神话?
?一家成立仅三年的中国AI公司,创下了从创立到IPO的全球最快纪录。2026年1月9日,MiniMax在中国香港交易所挂牌,首日股价飙升109%,市值冲破800亿港元,截止目前,市值已经翻了一倍多达到1690亿!并且就在...[详细]
-
机器人首次拥有时空记忆!阿里达摩院开源具身大脑基模RynnBrain
今日,阿里巴巴达摩院发布具身智能大脑基础模型RynnBrain,并一次性开源了包括30B MoE在内的7个全系列模型。RynnBrain首次让机器人拥有了时空记忆和空间推理能力,智能水平实现大幅跃升。在16项具身开源评测榜...[详细]
-
“DeepSeek-V3基于我们的架构打造” 欧版OpenAI CEO逆天发言被喷了
“DeepSeek-V3是在Mistral提出的架构上构建的。”欧洲版OpenAI CEO此言一出,炸了锅了。网友们的反应be like:这还是温和派,还有更直接的吐槽:Mistral在胡说八道些什么……还没吃上瓜的家人们别...[详细]
2026-01-26 16:59:56 -
算力大杀器!中科曙光发布全球首个单机柜级640卡超节点
今日,中科曙光宣布正式发布全球首个单机柜级640卡超节点scaleX640。scaleX640超节点采用“一拖二”高密架构设计,不仅实现了单机柜640卡超高速总线互连,构建大规模、高带宽、低时延的超节点通信域,还可通过双...[详细]
-
两块RTX 4090竟能本地微调万亿参数Kimi K2!算力门槛被我们击穿了
微调超大参数模型,现在的“打开方式”已经大变样了:仅需2-4 张消费级显卡(4090),就能在本地对DeepSeek 671B乃至Kimi K2 1TB这样的超大模型进行微调了。你没有看错。这要放以前啊,各路“炼丹师”是想都不敢...[详细]
2025-11-05 22:59:42 -
小米AI新论文!雷军曾用千万年薪要挖的DeepSeek天才少女署名
还记得去年底引发热议、上热搜的“95后AI天才少女”罗福莉吗?据媒体报道,小米和北京大学联合署名的论文近日发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,就出现在了...[详细]
-
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
英伟达还能“猖狂”多久?——不出三年!实现AGI需要新的架构吗?——不用,Transformer足矣!“近几年推理成本下降了100倍,未来还有望再降低10倍!”这些“暴论”,出自Flash Attention的作者——Tr...[详细]
2025-09-29 22:21:09 -
训练MoE足足提速70% 华为只用了3招
Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。不过,在高效实现模型参数规模化的同时,MoE的训练难题也日益凸显:训练效率不足,甚至一半以上训练时间都浪费在“等待”上。现在,为...[详细]