新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

谷歌更新安卓开发最佳 AI 模型榜单：Gemini 3.5 Flash 成本最贵，约为 DeepSeek V4 Flash 的 17.5 倍

2026-06-16 14:05:23 神评论

17173 新闻导语

谷歌Android Bench榜单更新：Gemini 3.5 Flash成本飙升至DeepSeek V4 Flash的17.5倍，性能仅排第6，开发者选模型避坑指南！

6 月 16 日消息，谷歌昨日（6 月 15 日）更新其 Android Bench 榜单，自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。

注：Android Bench 是谷歌官方推出的安卓开发任务基准测试，用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。

该测试更贴近真实开发场景，专门衡量 AI 模型完成安卓开发任务的能力，因此对开发者选择模型有较强参考价值。

根据谷歌官方更新的 Android Bench 榜单，OpenAI 的 GPT-5.5 模型以 74 得分位居榜首，GPT-5.4 模型以 72.4 得分位居第二。

谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三；而 Claude Opus 4.7（68.7 分）和 Opus 4.6（66.6 分）位居第四和第五。

其中让 Android Authority 等媒体感到惊讶的是，谷歌 Gemini 3.5 Flash 只拿到 63.7 分，最终排在第 6，未进入前 5。

在平均 Token 消耗量（每次基准测试包括 100 个任务，执行 10 次计算平均消耗）方面，谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens，折合单次运行平均成本 147.1 美元（现汇率约合 996.1 元人民币），成为整个榜单里最贵的模型。

谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时，称其是迄今最强的 Flash 模型，并强调编码能力更稳健，也更适合 AI 智能体与复杂工作流。

谷歌还表示，这款模型在部分内部基准测试中优于 Gemini 3.1 Pro，输出速度最高可达竞争性前沿模型的 4 倍。

但 Android Bench 给出的结论并不一致，至少在真实的安卓开发任务场景里，Gemini 3.5 Flash 没有体现出应有优势。

Gemini 3.1 Pro Preview 不仅分数更高，成本也大约只有 Gemini 3.5 Flash 的 1／3，这让开发者很难忽视它在性价比上的落差。

此外基于页面信息，智谱的 GLM 5.1 以 59.7 分位居第七；而 Kimi K2.6 以 58.6 分位居第八，DeepSeek V4 Pro 以 55.4 分位居第十；而 DeepSeek V4 Flash 以 52.7 分位居第 12 位，折合单次运行平均成本只需要 8.4 美元（现汇率约合 56.9 元人民币）。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。

【来源：IT之家】

关于Android Bench,Gemini 3.5 Flash,AI模型,成本,DeepSeek V4 Flash,GPT-5.5,GLM 5.1,Kimi K2.6,安卓开发,基准测试的新闻

今日热点

热点预告：《古剑》开启试玩！《龙之谷》推出国风职业

《古剑》7月18日线下试玩《终末地》云游戏不限量测试

比《魔兽世界》还硬核的国产网游，想起了怀旧服

《魔兽世界》12.1奖励全解析《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩