24 人团队硬刚英伟达:AMD 前高管梦之队出手,新芯片每秒 17000 个 token
24人团队硬刚英伟达!AMD前高管打造HC1芯片,每秒17000个token,速度比Cerebras快10倍,功耗降10倍,成本低20倍。颠覆性AI推理芯片,模型直接刻在硅片上。
造芯片的还有高手?刚刚推出的一款最新芯片,直接冲上硅谷热榜。峰值推理速度高达每秒 17000 个 token。
什么概念呢?当前公认最强的 Cerebras,速度约为 2000 token/s。速度直接快 10 倍,同时成本骤减 20 倍、功耗降低 10 倍。这就意味着,LLM 真正来到了亚毫秒级的即时响应速度。
但这块一夜之间刷屏硅谷的芯片,并非出自英伟达、AMD 之手,而是一家成立仅两年、团队仅有 24 人的初创公司 ——Taalas。

芯片代号 HC1,也是公司的首款产品。不同于所有竞争对手,Taalas 选择了迄今为止最极端的技术方案 —— 模型不再加载到内存里,而是直接刻在硅片上。换言之,芯片即模型。
结果显而易见,Taalas 撬动了芯片算力护城河:H100 买不到,试试 HC1 又何妨?
速度快 10 倍,功耗降至 10 分之一HC1 目前搭载 Llama 3.1 8B 模型,用户每秒最高可生成 17000 token/s,远高于主流 GPU / ASIC。

其中,在同一模型下 Cerebras 接近每秒 2000 个 token,SambaNova 约为每秒 900 个 token,Groq 约为每秒 600 个,英伟达 Blackwell 架构的 B200 为每秒 350 个。
具体来说,HC1 采用台积电 N6 工艺,面积为 815mm²,体积小巧而且开源,单颗芯片即可满足 8B 模型需求。
每颗芯片典型功耗仅为 250W,一个服务器如果同时装配 10 颗 HC1,功耗也才 2.5kW,可以直接使用常规空气冷却机架部署。
那么是如何做到这么大的性能飞跃的呢?
首先 HC1 借鉴了 2000 年代初期的结构化 ASIC 芯片理念。结构化 ASIC 芯片采用门阵列和固化 IP,然后仅通过改变互连层就能使芯片适应特定的工作负载。
这样下来,结构化 ASIC 芯片不仅比全定制 ASIC 更便宜,也比 FPGA 性能更优。

HC1 则采用类似思路,不改变底层电路,只通过调整两层掩模,就能低成本快速做出专用 AI 推理芯片。
它放弃了大多数可编程功能,将模型连同权重一起通过基于掩模 ROM 的调用架构存储在芯片上,并保留一个可编程 SRAM,用于保存微调后的权重(如 LoRA)和 KV 缓存。其余则全部通过掩模 ROM 固化执行。
这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月。
而如此激进的量化方式势必会影响性能,研究团队也意识到了这一点,所以可以通过 LaRA 适配器进行重新训练,以及可配置的上下文窗口,让芯片的最低限度灵活性得以保留。
换句话说,就是将一个完整大模型通过物理硬连线进芯片中,省去了传统存算分离的成本,用灵活性换取极致的速度和效率。

除了 Llama 3.1,Taalas 也尝试将其它模型集成到 HC1 上,例如对 DeepSeekR1-671B 的多芯片解决方案。
将 SRAM 部分拆分到单独的芯片上,然后可以将每片 HC1 的存储密度提高到约 20 位参数,总计需要 30 个定制 HC1。
整体处理速度可达到每用户每秒 12000 个 token,如果考虑到 30 颗芯片成本为每百万 token 是 7.6 美分,那么该方案成本也不到同等吞吐量的 GPU 方案的一半。
假设 GPU 更新周期为四年,而 HC1 每年都需要重新更换,总成本也仍然具备优势。
AMD 前高管梦之队其背后的公司 Taalas 成立于两年前,由 AMD 前集成电路设计总监 Ljubiša Bajić、AMD / ATI / Altera 前技术经理和工程师 Leila Bajić、AMD 前 ASIC 设计总监 Drago Ignjatović共同创立,堪称 AMD 前高管梦之队。
其中,Ljubiša Bajić不仅曾在 AMD 和英伟达担任高级职位,负责高性能 GPU 研发设计,还是 Tenstorrent 的创始人兼首任 CEO。
新公司致力于开发专为 AI 推理和训练设计的全新架构,强调分层设计和晶格网络,能够让芯片像大脑一样根据任务需求动态处理数据。
在 2020 年,芯片教父 Jim Keller 也强势加入 Tenstorrent,并接任 CEO 一职,而 Ljubiša Bajić转任首席技术官 CTO,专注于产品研发。

随后,他又创立了 Taalas,试图通过类似硅基编译器的方式,直接将 AI 模型转化为硅芯片。
于是首战告捷,一个仅有 24 名成员的团队,产品投入仅 3000 万美元,就创造出比通用 AI 芯片高出几个数量级的能效比。
目前 Taalas 已筹集 2 亿美元投资,预计将在春季基于 HC1 发布第二代变体,将集成一款中等规模的推理大模型。
随后预计将在冬季部署上线 HC2,HC2 密度更高、运行速度也会更快。
不过对于 HC1,网友们的评价却是两极分化。
一方面,网友认为 HC1 的超低延迟将有益于推动具身智能等领域发展。

另一方面,也有网友实测过后发现,HC1 高速推理的背后,却是糟糕的推理深度:

以及对于迭代周期相当迅速的大模型来说,HC1 的硬编码可能会使芯片很容易过时。
这也是为什么当前芯片厂商都在普遍推出通用型芯片的原因之一。

参考链接:
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

