苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型,但速度令人抓狂
iPhone 17 Pro成功运行4000亿参数大模型,但速度仅0.6 Token/秒!揭秘Flash-MoE技术如何突破内存限制,实现手机本地AI运行。点击了解详情!
3 月 23 日消息,拥有 4000 亿参数的大语言模型只能在配备大容量内存、性能强劲的硬件上运行,因为即使是量化或压缩版本,也至少需要 200GB 内存。从这些苛刻的配置要求来看,iPhone 17 Pro 绝对不会是运行 4000 亿参数大模型的首选,但有人已经证明,苹果这一代旗舰机型完成了这件看似不可能的事。不过需要说明的是,这离不开一些巧妙的技术手段。


一个名为 Flash‑MoE 的开源项目已在 iPhone 17 Pro 上成功运行,据网友 @anemll 展示,这款旗舰机虽然能运行这个算力需求极高的模型,但也存在明显短板,其 Token 生成速度慢得惊人,仅 0.6 个 Token / 秒,大约每 1.5 到 2 秒才能生成一个单词。
不过话又说回来,无论速度如何,一部智能手机能跑起来 4000 亿参数的大语言模型,这一事实本身就说明:只要再做一些优化,未来在手机端本地运行大语言模型完全是有可能实现的。
至于实现原理:iPhone 17 Pro 仅配备 12GB LPDDR5X 内存,根本不可能把整个大模型全部载入内存,而 Flash‑MoE 则利用了设备的固态硬盘(SSD),直接向 GPU 流式传输数据。此外,“MoE”代表混合专家模型(Mixture of Experts),这意味着其每生成一个单词,只需要调用 4000 亿参数中的一小部分。
在本地运行大语言模型还有一个好处:完全保护隐私,且无需联网就能获得回复,只不过 iPhone 17 Pro 的电池会被严重消耗。开发者们也会使用大语言模型的压缩版,也就是“量化版”,但即便是量化后的 4000 亿参数模型,最低仍需 200GB 内存,这在 iPhone 17 Pro 上原本是无法实现的。
这次演示证明:只要能忍受每秒仅 0.6 个 Token 的缓慢生成过程,就可以在智能手机上运行 4000 亿参数的大语言模型。但也要清楚,“能跑起来”和“能流畅、可用地使用”完全是两码事。
- 1又一款韩国现象级网游即将诞生?《纳克园》真实测评
- 2七年磨一剑,上线就干爆了Steam服务器,它凭实力成为年度爆款!
- 3腾讯大作《代号:致金庸》疑似被砍!官网消失,官号"删"视频
- 4【魔兽世界】12.0版本全职业人气排行!一个蓝色职业人气高的令人费解
- 5夫人大雷诱惑,里昂性转太色气!国外美女Cos《生化》系列角色
- 6最美千金!赌王何鸿燊爱女晒性感靓照:颜值爆棚!
- 7《魔兽世界》赶紧上号!登陆免费领取《星际争霸》联动武器外观
- 8搭讪辣妹竟是非人类?美女影游《爱:死而后已》太有活了!
- 9女主播常年用玉足玩游戏 竟练出特殊肌肉?
- 10腾讯15年前经典IP续作 《洛克王国:世界》3月26日开服 官方承诺不卖数值、不抽卡

