17173 > 游戏资讯 > 科技新闻 > 正文

中昊芯英发布新一代TPU芯片“须臾”:单芯片算力达896TFLOPS

2026-06-30 22:01:00 神评论
17173 新闻导语

中昊芯英发布新一代国产TPU芯片“须臾”,单芯片算力达896 TFLOPS,功耗仅600W!泰则2.0平台单机7.168P算力,支持千卡集群,适配万亿参数大模型,自主可控无海外依赖。点击了解国产AI算力新突破!

中昊芯英正式推出新一代全自研高性能TPU AI专用算力芯片“须臾”,并同步发布搭载该芯片构建的软硬件一体化智算底座——泰则2.0 AI高性能智算平台。

此次升级是继初代“刹那”芯片及初代泰则服务器后的全面迭代,在底层架构、算力峰值、片上存储、集群互联和计算能效等方面均实现跨越式提升。

作为国内最早专注TPU架构AI芯片研发的企业之一,中昊芯英于2023年成功流片并量产了国内首枚高性能TPU芯片“刹那”,积累了三年规模化落地经验。

基于此,新一代“须臾”芯片针对超大模型、长上下文和海量词元交互场景中的访存延迟、能耗偏高及并行效率不足等痛点,进行了架构革新。

关键性能指标如下:

单芯片混合精度浮点算力达896 TFLOPS,为上一代“刹那”的3倍;8-bit推理算力达1792 TOPS,适配高并发推理需求。

显存容量与片间互联速率大幅提升,支持超长上下文,有效降低多轮对话中的数据搬运开销。

单芯片额定功耗仅600W,相较同等算力水平的传统芯片功耗降低50%,更利于绿色低碳智算中心建设。

通过多维张量计算单元与数据复用优化,有效缓解存储墙瓶颈,同等AI任务下综合计算效能可达传统GPU的数倍,在大模型训练和批量词元生成场景优势显著。

“须臾”延续全自研TPU技术路线,涵盖IP核、指令集、算子库及整机系统软件,无海外核心技术依赖。公司具备芯片设计、电路开发、编译工具、模型适配的全链条能力,可快速完成新模型的适配部署,满足政务、金融、电网等行业的信息安全合规要求。

平台“泰则2.0”:单机7.168P算力,支持千卡集群

同步推出的泰则2.0平台,其最小计算单元(单节点)由两路高性能CPU与8片“须臾”TPU协同构成,整机混合精度算力达7.168P,同等任务下整机能耗仅为传统GPU服务器的80%。

在集群层面,泰则2.0通过自研低延迟高并行片间通讯协议,单个超节点可支持最多2048片“须臾”芯片直联,能够承载万亿参数大模型分布式训练、多智能体协同运算及海量词元并发推理等重负载任务。平台还提供完整的可视化运维管理系统,集成BMC硬件监控、故障预警、算力计费、用户权限及模型市场等功能,实现开箱即用。

软件生态方面,泰则2.0兼容PyTorch、vLLM、SGLang等主流AI框架,并适配DeepSpeed、Megatron-LM等分布式训练套件;已完成Qwen、DeepSeek、GLM、MiniMAX等数十款大模型深度适配,开发者无需大规模代码改造即可快速完成模型迁移,大幅降低国产算力替代门槛。

紧扣词元经济与AI智能体需求,赋能多行业落地

2026年,AI产业迈入词元经济落地阶段,从传统算力时租转向以词元计价的MaaS服务模式。“须臾”与泰则2.0在硬件层面针对词元生成、上下文缓存及批量推理进行专属优化,有效降低单词元推理成本,助力AI服务商搭建自主可控的按量计费体系。

产品深度适配开源AI智能体框架OpenClaw,支持本地私有化部署,确保交互词元与业务数据不出域,兼顾数字员工自动化执行与企业隐私安全,可应用于报表自动化、IT运维、数据分析及个人智能助理等场景。

在商业化层面,泰则2.0单位算力建设成本仅为海外高端产品的60%,低功耗特性有助于降低电费支出与碳排放,契合各地低碳算力园区的政策导向。

规模化应用加速,持续迭代驱动未来

目前,初代“刹那”芯片已在多个行业实现大规模交付,产品成功部署于深圳联通、天津移动、太极股份、江西上饶等运营商、政府机构及科技企业建设的超大规模智算中心,并在高校科研平台及教学环境中广泛应用,覆盖金融、传媒、教育、医疗等领域。

未来,中昊芯英将依托现有客户基础,持续优化TPU芯片算力、能效与存储架构,适配更大规模的大模型与多智能体集群;同时联合主流大模型厂商、云服务商及系统集成商,深化软硬件协同,进一步拓展自主可控算力产业链的落地版图。

【来源:快科技】
关于中昊芯英,须臾,TPU芯片,泰则2.0,AI算力,896TFLOPS,大模型训练,智算平台,词元经济,全自研的新闻
17173不想再闭门造车了!想请您来【QQ群:1075303978】当“骨灰级体验官”。你觉得新版丑、难用、没内味?直接骂,我们听着。新功能你先用、改版方案你投票,有效反馈还能攒积分兑换点卡/周边好礼。 一键入群