谷歌更新安卓开发最佳 AI 模型榜单:Gemini 3.5 Flash 成本最贵,约为 DeepSeek V4 Flash 的 17.5 倍
谷歌Android Bench榜单更新:Gemini 3.5 Flash成本飙升至DeepSeek V4 Flash的17.5倍,性能仅排第6,开发者选模型避坑指南!
6 月 16 日消息,谷歌昨日(6 月 15 日)更新其 Android Bench 榜单,自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。
注:Android Bench 是谷歌官方推出的安卓开发任务基准测试,用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。
该测试更贴近真实开发场景,专门衡量 AI 模型完成安卓开发任务的能力,因此对开发者选择模型有较强参考价值。
根据谷歌官方更新的 Android Bench 榜单,OpenAI 的 GPT-5.5 模型以 74 得分位居榜首,GPT-5.4 模型以 72.4 得分位居第二。
谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三;而 Claude Opus 4.7(68.7 分)和 Opus 4.6(66.6 分)位居第四和第五。
其中让 Android Authority 等媒体感到惊讶的是,谷歌 Gemini 3.5 Flash 只拿到 63.7 分,最终排在第 6,未进入前 5。
在平均 Token 消耗量(每次基准测试包括 100 个任务,执行 10 次计算平均消耗)方面,谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens,折合单次运行平均成本 147.1 美元(现汇率约合 996.1 元人民币),成为整个榜单里最贵的模型。
谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时,称其是迄今最强的 Flash 模型,并强调编码能力更稳健,也更适合 AI 智能体与复杂工作流。
谷歌还表示,这款模型在部分内部基准测试中优于 Gemini 3.1 Pro,输出速度最高可达竞争性前沿模型的 4 倍。
但 Android Bench 给出的结论并不一致,至少在真实的安卓开发任务场景里,Gemini 3.5 Flash 没有体现出应有优势。
Gemini 3.1 Pro Preview 不仅分数更高,成本也大约只有 Gemini 3.5 Flash 的 1/3,这让开发者很难忽视它在性价比上的落差。
此外基于页面信息,智谱的 GLM 5.1 以 59.7 分位居第七;而 Kimi K2.6 以 58.6 分位居第八,DeepSeek V4 Pro 以 55.4 分位居第十;而 DeepSeek V4 Flash 以 52.7 分位居第 12 位,折合单次运行平均成本只需要 8.4 美元(现汇率约合 56.9 元人民币)。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。

- 1对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 2《剑星:血雨》新女主伊薇太幼引争议 网友举例韩妹打脸老外
- 3掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5《上古世纪归来》公布先驱测试计划 原厂正版授权重启经典端游
- 6《魔域》重大活动今日上线 海量福利共赴守护之约
- 7风靡全球的《宝可梦GO》 把300亿张照片卖给了美国军方
- 8Nexon新作MMO《无冕之烬》免费试玩开启!截止6月22日
- 9《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 10八年磨一剑!《太吾绘卷:天幕心帷》完整版今日正式上线

