苹果 CoreAI 端侧 AI 架构测试:M4 Mac 上 Qwen3 0.6B 解码速度是 MLX 的 2.47 倍
苹果CoreAI端侧AI架构实测:M4 Mac上Qwen3 0.6B解码速度是MLX的2.47倍!揭秘性能差异与持续负载表现,一探端侧大模型推理新突破。
6 月 11 日消息,科技媒体 Wccftech 昨日(6 月 10 日)发布博文,报道称在 2026 年全球开发者大会(WWDC)上,苹果推出 CoreAI 引擎,接替 2017 年推出的 CoreML 框架,主打端侧大模型推理。
援引博文介绍,CoreML 框架已服役 9 年,主要面向图像分类等小型静态任务;而最新接棒的 CoreAI 主要面向端侧本地推理和边缘 AI 场景,重点优化设备端大语言模型推理,重点支持更灵活的模型格式和更大的模型内存占用。
而 MLX 是苹果生态中的一个机器学习框架,更偏向研究、训练和微调任务,常被开发者拿来测试和部署本地大模型。
从首批基准来看,苹果 CoreAI 呈现“小模型强、大模型接近持平”特征。在 M4 Mac 上运行 Qwen3 0.6B 模型后,CoreAI 解码速度约为 MLX 的 2.47 倍。在 iPhone 17 Pro 上,这一优势约为 1.6 倍。
解码速度指大语言模型生成文本时,每秒能输出多少个 token,常写作 tok/s。这个指标越高,模型回复通常越快,用户等待时间越短。

在模型规模提升至 80 亿参数(Qwen3 8B,M4 Max)后,CoreAI 比 MLX 快 5%,两者解码性能几乎持平,意味着 CoreAI 的性能优势随模型规模增大而收窄。
在持续负载方面,测试显示,iPhone 17 Pro 的 GPU 在长时间运行后会较快触发温控降频,这会削弱 GPU 路线的持续吞吐。CoreML 配合苹果神经引擎(ANE,Apple Neural Engine)的组合在性能保持率方面实现反超。

横向对比其他厂商方案,针对特定模型深度优化的引擎依然更容易胜出。比如,谷歌的 LiteRT-LM 运行 Gemma 时,在 iPhone 17 Pro 上达到每秒 55.4 tokens,并且 RAM 占用仅 641 MB;作为对照,苹果 MLX 的内存占用为 2900 MB,是前者的 4.5 倍。

- 1重磅炸弹!曝《星际争霸》全新3A新作,或将马上亮相
- 2娱美德推进《夜鸦》在中国大陆的上线 IP新作年内上线
- 3《魔兽世界》倒计时一周!全新12.0.7版本“真相之幕”即将上线
- 4《泡泡堂》韩服宣布停运,盛趣回应:独立运营不受影响
- 5拳头离职大佬创业!新作虽说是“缝合怪”,但好评率仍高达81%
- 6遣返回国!日本“国宝级”美少女福田悠亚新西兰旅游被审讯6小时
- 7Steam新品节前瞻,推荐七款值得关注的多人联机/网游!
- 8绷不住了!电竞含片?智商税已经离谱到这个地步了?
- 9魔兽世界:时光服P4最新DPS排行,唯一三系登顶职业出现,雷火又开始造新神了
- 10正惊GIF:六大美女聚餐!桌上有说有笑,青春艳丽模样让无数人心动

