新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 综合资讯 > 正文

各AI巨头争相用《宝可梦》测试：评估旗下AI真正实力

2026-01-25 20:04:42 神评论

17173 新闻导语

谷歌、OpenAI、Anthropic等AI巨头正用《宝可梦》游戏测试AI实力，评估逻辑推理与长期规划能力。Gemini、GPT已通关，Claude仍在挑战中。

据科技媒体Tom's Hardware今天报道，当今时代我们有无数种跑分测试和评测方法来衡量AI的聪明程度与能力，但最近一种相对小众的测试方法也在AI圈内引发关注。

目前，谷歌、OpenAI和Anthropic等AI巨头正在让自家模型游玩经典的《宝可梦》系列游戏，以此来评估AI性能表现。

Anthropic公司AI部门负责人David Hershey对此表示：“《宝可梦》之所以能吸引机器学习社区关注，是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性”。

Hershey从去年开始在Twitch平台进行直播，每天的日常就是用公司自产模型Claude玩《宝可梦》。这名负责人平时的工作就是帮助客户部署AI，因此他开直播本质上也是在测试模型。

这名负责人给自家AI直播游戏的做法也启发了不少自由开发者，他们也陆续搞了“Gemini玩《宝可梦》”“GPT玩《宝可梦》”等类似的直播节目。

后来，这些直播甚至被谷歌和OpenAI注意到，开发团队有时还会客串直播间亲自调整模型参数，在官方力量注入下，Gemini和GPT已经成功通关了《宝可梦蓝》；而Claude至今还没打通任何一个版本。

至于为何要用《宝可梦》评估AI性能？Hershey对此解释道：“因为它给我们提供了直观的方法观察模型表现，还能用量化指标评估性能”。

通常来讲，玩家在《宝可梦》系列游戏中需要升级、训练已有的宝可梦，还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性，而是充满着判断和取舍。

而且，玩家还要经常在游戏中做出选择：是先冒险挑战强大的训练家以获取珍稀宝可梦，还是稳扎稳打造出一支实力均衡的队伍。

显然，人类非常擅长做此类决策，这也是游戏的乐趣所在，但对于AI来说，这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。

因此研究人员会深入剖析AI在游戏里的决策方式，深入理解模型的能力边界。

Hershey还会将AI玩《宝可梦》的结果分享给客户以改进控制框架，帮助他们提升算力使用效率，让模型更高效运转。

【来源：互联网】

关于宝可梦 Pokopia,宝可梦,AI,谷歌,OpenAI,Anthropic,Claude,Gemini,GPT,游戏测试,模型性能的新闻

宝可梦 Pokopia

宝可梦 Pokopia

暂未评分

专区下载

预订激活码、礼包

今日热点

腾讯网易正面交锋！《失控进化》《遗忘之海》明日上线

《崩坏：因缘精灵》进化测试定档7月9日《胜利女神》推出更新“WAVE TO YOU”

传统MMO最后的荣光？《永恒之塔2》真正的公测来了

《永恒之塔2》航海玩法官宣《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩