17173 > 游戏资讯 > 科技新闻 > 正文

NVIDIA创造全新Groq 3 LPU:500MB SRAM高速缓存 7倍带宽碾压HBM4

2026-03-17 15:04:43 神评论
17173 新闻导语

NVIDIA发布全新Groq 3 LPU语言处理单元,集成500MB SRAM,带宽150TB/s碾压HBM4达7倍,专攻AI低延迟推理,提升token吞吐量至每秒1500个,加速多智能体交互场景。

CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU……之后,XPU家族再添新成员!

NVIDIA创造了全新的“LPU”,意思是“Language Processing Unit”,即语言处理单元。

它是一款专用的AI推理加速芯片,基于NVIDIA去年收购的Groq,专攻低延迟解码与交互式推理,与主打训练和通用计算的GPU形成互补,共同支撑AI从训练到落地的全流程。

NVIDIA Rubin Vera平台之前就已经包含六种不同芯片:Rubin GPU加速器、Vera CPU处理器、Bluefield 4 DPU数据处理单元、ConnectX 9智能网卡、NVLink 6纵向扩展交换机、Spectrum-X横向扩展交换机。

如今,Groq 3 LPU又加入了这一大家庭。

Groq 3 LPU集成了980亿个晶体管,结构很简单就是多达500MB SRAM(静态随机存取存储器),也就是CPU、GPU上管用的缓存单元。

虽然它在容量上远不及288GB HBM4,但是可提供150TB/s的惊人带宽,远远超过HBM4 22TB/s 7倍之多。

要知道,AI解码操作是极度渴求带宽的,Groq 3恰好可以完美满足,而且延迟要低得多。

同时,Groq 3 LPU的FP8精度算力达到了1.2PFlops(每秒1200万亿次)。

基于此,NVIDIA打造了Groq 3 LPX机架,包括256颗Groq 3 LPU,缓存总容量达128GB SRAM,带宽则是可怕的40PB/s。

机架之间通过640TB/s带宽的专用纵向扩展接口连接起来,整体AI推理算力达到315PFlops(每秒31.5亿亿次)。

Groq LPX定位是Rubin Vera平台的协处理器,可以加速AI模型每一层的每个token处理,提升解码性能。

它还为多智能体系统做好了准备,这被视为AI的下一个前沿领域,需要在对万亿参数模型进行推理、处理百万token上下文窗口的同时,保持交互性能。

Rubin GPU结合Groq LPU,将把当下每秒100个token的吞吐量,推向每秒1500个token甚至更多,从而完美支撑AI智能体交互场景。

【来源:快科技】
关于NVIDIA,Groq 3 LPU,AI推理,SRAM,HBM4,Rubin Vera平台,带宽,多智能体系统,语言处理单元,解码性能的新闻
亲爱的 17173 玩家们~我们正在打磨平台的找游戏功能,想听听你平时是怎么筛选、导航找游戏的?你的真实习惯和偏好,能让后续找游戏更顺手哦!立即点击填写问卷 参与问卷