Mac mini 不止养 AI 龙虾：苹果 M4 算力机密被破解，Claude 立新功

2026-03-08 10:02:10 神评论

17173 新闻导语

苹果M4神经引擎被破解！开发者利用Claude逆向工程，绕过CoreML直接在ANE硬件上训练AI模型，实现6.6 TFLOPS/W超高能效，Mac mini变身低成本AI训练神器。

Claude 立大功！开发者靠它剖析 MIL 语言与 E5 二进制，绕过 CoreML 直达硬件，证明 NPU 训练从来不是硬件不行，而是苹果不让用。

AI 界再迎地震，LLM 训练未来或从此改变！OpenClaw 引起全球 AI 龙虾热潮，意外让苹果 Mac mini 卖爆 —— 美国百强连锁店之一的 microCenter，本来主打的个人消费级 PC，最近甚至宣称「Mac mini 和 OpenClaw 天生一对」！

还有好消息：Mac mini 养完小龙虾，不用吃灰了 —— 刚刚，苹果神经引擎（Apple Neural Engine，ANE）被破解，可能引爆 AI 训练革命！

工程师 Manjeet Singh 用 Claude 逆向工程 Apple Neural Engine 了，还训练了一个单层 Transformer。

想象一下：不用 GPU，不用 TPU，就在 M4 芯片上完成的。

这并不意味着现在任何人都能构建 LLM。还没到那一步。但现在你已经可以在自己的 MacBook 上用一个小数据集做家庭实验了。

无需 CoreML，无需 Metal，无需 GPU。纯粹利用高速运行的 ANE 芯片。

如果属实，这无疑意义重大 ——

而且 Claude 深度参与了破解全程，包括整个逆向工程、基准测试以及训练代码的开发 —— 由人类的直觉引领探索方向，由 AI 进行数据推理并撰写分析报告。

Manjeet Singh 直言一切都靠 Claude，他只是引导方向：

我们认为，这种人机协作是进行系统研究的一种新颖且自然的方式：

一个伙伴扮演富有直觉的架构师，另一个则充当编写代码和设计实验的工程师。

链接：http://github.com/ maderix / ANE

Mac 就能训单层 Transformer！

Claude 在这里扮演了关键角色。

通过 Claude 的智能分析，开发者钩住了私有方法、剖析了 MIL 语言的秘密，并拆解了 E5 二进制的迷雾，最终绕过 CoreML 框架，直接操控 ANE 硬件实现前向和反向传播。

一个单层 Transformer（dim=768, seq=512）仅需 9.3 毫秒一步，峰值效率高达 6.6 TFLOPS/W——

这是 A100 的 80 倍，H100 的 50 倍以上。

这一发现让无数人的算力账单显得像个笑话。

更惊人的是，最新更新已实现完整 Stories110M 模型（109 百万参数，12 层 Llama-2 架构）在 TinyStories 数据集上的训练，损失实时下降，功耗低到「小于一瓦特」。

你的桌面 Mac，从此不再是消费工具，而是 AI 训练的超级电脑，成本暴降至电费的零头。

这将改变世界。

首次，任何拥有 Mac 的人都可以在本地、私密地以远低于云 GPU 的成本微调、训练或迭代大规模模型。

不再租用 4 万美元的 A100 集群。不再排队等待。不再留下巨大的碳足迹。

过去动辄数万甚至数十万美元的训练成本？如今暴跌至几乎只需几美分 —— 基本就是你那台闲置 Mac 本就在消耗的电费。

AI 革命刚刚从耗资数十亿美元的数据中心转移到了你的桌面。

我们才刚刚起步，但大门已经敞开 —— 今天是单层，明天就是完整模型。

超低成本的设备端训练时代已经到来。

未来不是即将来临，它已经在你的 Mac 上运行。不过，我们西岸看一下什么是 ANE？

什么是苹果神经引擎 ANE？

大多数新款 iPhone 和 iPad 都配备了神经引擎，这是一种能极大加速机器学习模型的特殊处理器，但关于这款处理器实际工作原理的公开信息并不多。

苹果神经引擎（简称 ANE）是一种 NPU，即神经网络处理单元。

NPU 类似于 GPU，但 GPU 加速图形处理，而 NPU 则加速卷积、矩阵乘法等神经网络运算，是一种定制化的固定功能加速器。

它接收的是已经编译好的神经网络计算图，然后将整张图作为一个原子操作一次性执行完毕。

你无法像操作 CPU 或 GPU 那样逐条发出乘加指令（multiply-accumulate）。你提交的是一份描述完整计算图的编译程序，而硬件会从头到尾一次性跑完。

ANE 并非唯一的 NPU——

除了神经引擎，最著名的 NPU 当属谷歌的 TPU（张量处理单元）。

2017 年，Apple 在 A11 芯片中首次引入 Neural Engine，当时是双核心设计。

此后每一代都在扩展规模。

此次研究的对象，是苹果 M4 芯片的 ANE（代号 H16G）：

16 核心，支持 127 条评估请求的队列深度；

具备独立的 DVFS（动态电压 / 频率调节）；

并且拥有严格的电源门控机制，空闲时功耗精确降至 0 毫瓦。

推理芯片竟能用于训练，能效还很高！

ANE 本身性能极其强大，但苹果通过 CoreML 将它限制在「仅推理」用途。

真正的障碍，从来不是硬件能力，而是软件支持。

以下是完整的 ANE 软件堆栈的样子，从公共的 CoreML API 到硬件：

关键洞察：CoreML 不是唯一的入口。AppleNeuralEngine.framework 中的_ANEClient 类提供了对编译 → 加载 → 评估流程的直接访问。CoreML 只是顶部的一个便利层。

而 Manjeet Singh 想证明在 Apple Neural Engine（ANE）上进行训练 —— 以及在其他 NPU 上进行训练 —— 是可行的。

起因是他买了一台 Mac mini M4，想利用它的算力来完成他的编译器项目。

这个项目通过逆向私有 API，绕过了这一限制，展示了当你真正释放硬件能力时，它能做到什么。

这款 NPU 宣称拥有 38 TFLOPS 的 INT8 算力（但它实际是 FP16 处理器，所以实际算力减半）。

最终，他搭建了一个定制化的训练流水线，成功训练了一个 1.1 亿参数的微型 GPT 模型。

实际上，目前无法用单芯片训练更大的模型，但理论上，通过集群或许可以训练更大规模的模型。不过即使单台设备，也应该能对 30 亿或 70 亿参数的模型进行 LoRA 微调。

再次强调，为什么要在 NPU 上训练？

因为能效极高。

ANE 在峰值算力下功耗仅 2.8W，19 TFLOPS 能效比高达 6.6 TFLOPS / 瓦，堪称疯狂！

对比之下，Metal GPU 只有为 1 TFLOPS / 瓦，H100 为 1.4 TFLOPS / 瓦）

需要明确的是：

训练是可行的，但利用率很低（约峰值的 2-3%），并且还存在重大的工程挑战。

许多逐元素运算仍然会回退到 CPU 执行。

目前，这除了用于小型研究模型外，还不能替代 GPU 训练。

测试结果令人惊讶

最后的发现令人惊讶：虽然「38 TOPS」这个数字在技术层面没有错误，但却极具误导性。

苹果从未公开过关于如何榨取 ANE 最大吞吐量的优化模式。

这里多解释一下 ——

TOPS 是 Tera Operations Per Second 的缩写，1TOPS 代表处理器每秒钟可进行一万亿次（10^12）操作。

它主要衡量理论最大吞吐量，而非实际吞吐量。由于大多数运算都是乘加运算（MAC），因此 TOPS 的计算公式为：（乘积累加运算 MAC 单元数量）x（MAC 操作频率）x 2。

这是决定 AI 运行速度的最重要的参数。

矩阵乘法扩展：基础测试

他们从最简单的基准测试开始：对递增尺寸的方阵执行乘法运算。

测试结果揭示两大关键现象：

256×256 矩阵受限于调度开销：在 0.101 毫秒的运行时间中，大部分（约 0.095 毫秒）消耗于 XPC 和 IOKit 框架的通信，真正的计算仅占约 0.006 毫秒。

性能在 4096 尺寸时显著下降：从 2048 尺寸时的 5.7 TFLOPS 降至 4096 尺寸时的 4.0 TFLOPS，这表明存在资源溢出问题。

SRAM 性能悬崖

2048 到 4096 尺寸的性能骤降正是 SRAM 性能悬崖的体现。

一次矩阵乘法的计算集包含三个矩阵（A、B、C）。

以 FP16 精度计算：

当尺寸为 2048×2048 时，24 MB 的计算集完全适配芯片上的 SRAM，因此能达到峰值单次运算吞吐量（5.7 TFLOPS）。

当尺寸增至 4096×4096 时，96 MB 的计算集远超 SRAM 容量（约 3 倍），迫使数据频繁交换至 DRAM，导致吞吐量锐减 30%。

这一性能在 24MB（快速）和 96MB（慢速）之间的剧烈变化，表明 ANE 的片上 SRAM 容量约为 32 MB。

性能并非在达到界限时突然崩溃，而是逐渐下降，这暗示其采用了一种类似缓存的分层架构，而非固定的便签式存储器。

卷积运算优于矩阵乘法

苹果文档中并未明确的一点是：ANE 本质上是一个为卷积设计的引擎。将相同的计算任务表达为 1×1 卷积，而非矩阵乘法，能获得显著提升的吞吐量。

一个矩阵乘法运算 C [M,N] = A [M,K] @ B [K,N] 可以通过重塑数据，完美转化为一个 1×1 卷积：

输入重塑为：(1, K, 1, M)

权重重塑为：(N, K, 1, 1)

输出重塑为：(1, N, 1, M)

运算量和最终结果完全相同，但 ANE 的卷积数据通路能以高得多的效率处理这种形式。

深度图网络能填满流水线

单个矩阵乘法操作仅能利用 ANE 约 30% 的峰值能力。

该硬件专为处理图网络而设计 —— 即能够持续让全部 16 个核心保持忙碌状态的运算链条。

链接的运算越多，就越接近理论上的峰值性能。

最大化 ANE 吞吐量的黄金法则：

构建深度图，而非广度图：在一个 MIL 程序中链接 16 至 64 个运算。孤立的单次运算会浪费 70% 的硬件能力。

优先使用卷积而非矩阵乘法：1×1 卷积能利用快速数据通路，而矩阵乘法的速度要慢 3 倍。

严格控制数据在 32MB 以内：确保每个张量的内存占用不超过 SRAM 容量。数据溢出到 DRAM 会严重损害吞吐量。

避免受限于调度的微小运算：任何执行时间低于约 1 毫秒的操作，其主要耗时都来自于约 0.095 毫秒的调度开销。

CoreML vs _ANEClient：难以忽视的开销税

CoreML 究竟损失了多少性能？

可以通过两条路径测量相同的运算，来计算性能损失：

对于小型运算，CoreML 增加了 2-4 倍的开销。

在高吞吐量配置下，由于 ANE 计算时间占主导，这一差距会缩小。但对于延迟敏感型的工作负载（如大语言模型的 token 解码、实时推理），CoreML 带来的性能损失相当严重。

INT8 = FP16：「38 TOPS」的现实含义

苹果宣称 M4 神经引擎拥有「38 TOPS」的算力。以下是这一数字的真实含义。

在 FP16 和 INT8 两种精度下，测量了完全相同的运算：

最后发现：

INT8 并未带来预期的 2 倍速度提升。

INT8 和 FP16 的吞吐量几乎相同。ANE 在执行计算前，会将 INT8 权重反量化为 FP16 格式。

INT8 仅节省了内存带宽（从 DRAM 内存加载更小的权重），并未节省计算周期。

苹果的「38 TOPS INT8」是这样计算出来的：19 TFLOPS FP16 × 2。

这符合行业惯例，即将 INT8 操作数视为 FP16 的两倍。但硬件实际上并不能以两倍的速度执行 INT8 运算。

真正的峰值性能是 19 TFLOPS FP16，无论你使用何种量化精度，所获得的最高性能就是如此。

这恰好是根据硬件配置（16 核心 × 约 1.2 TFLOPS / 核心）计算出的理论峰值的 100%。

在 32 层以上的深度网络中达到 94% 的利用率，意味着几乎测量了硬件的原始极限能力。

能效：ANE 隐藏的王者

如果只看吞吐量，GPU 稳赢。

但 ANE 真正的优势在于其惊人的效率。

零功耗待机。ANE 采用了硬性电源门控技术 —— 它不仅关闭时钟，而是在闲置时完全切断电源。这消除了任何泄漏电流和待机电量消耗。

在峰值负载下，它能实现 6.6 TFLOPS / 瓦的能效，遥遥领先 GPU：

这意味着，ANE 在执行每个浮点运算时的能效，能效大约是 A100 的 80 倍。当然，A100 拥有 50 倍于 ANE 的总吞吐量。但对于依赖电池供电的设备端推理而言，ANE 性能非凡。

ANE 与 SME：何时选择使用哪种

M4 的 CPU 核心还配备了苹果的 SME（可扩展矩阵扩展）功能。

以下是两者的对比：

适合使用 ANE 的场景：大批量推理、包含 16 层以上的深度图网络、对能耗有严格限制的场景、需要持续高吞吐量的任务。

适合使用 SME 的场景：单 token 解码（零调度开销）、ANE 不支持的自定义运算、小矩阵运算、任何需要 FP32+ 精度的计算。

在 M4 上进行理想的大语言模型推理策略是混合模式：预填充阶段（大批量、高吞吐量）使用 ANE，解码阶段（单 token、对延迟敏感）使用 SME。

这次挖掘了 ANE 的真实能力：在 2.8W 功耗下，配合正确的网络结构，可实现 19 TFLOPS FP16 的性能。

而接下来，Manjeet Singh 还将详细演示苹果明确不支持的功能：在神经引擎上训练神经网络。

参考资料：

https://www.reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to/

https://x.com/ronaldmannak/status/2028560995875168292

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine-615

【来源：IT之家】

关于Apple Neural Engine,M4,Claude,NPU,AI训练,Mac mini,Transformer,CoreML,能效,逆向工程的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

网易做了7年的大作要来了?4月版号154款游戏获批

《遗忘之海》首测试玩 4月版号中值得关注的游戏！

摒弃传统“战法牧” 东方仙诡MMO即将开测！

《七界梦谭》山鬼吟测试《不朽之树》首次限时限量测试

热门测试游戏

品牌栏目

热门新闻排行

Wan网页游戏免费玩