各AI巨头争相用《宝可梦》测试:评估旗下AI真正实力
谷歌、OpenAI、Anthropic等AI巨头正用《宝可梦》游戏测试AI实力,评估逻辑推理与长期规划能力。Gemini、GPT已通关,Claude仍在挑战中。
据科技媒体Tom's Hardware今天报道,当今时代我们有无数种跑分测试和评测方法来衡量AI的聪明程度与能力,但最近一种相对小众的测试方法也在AI圈内引发关注。

目前,谷歌、OpenAI和Anthropic等AI巨头正在让自家模型游玩经典的《宝可梦》系列游戏,以此来评估AI性能表现。
Anthropic公司AI部门负责人David Hershey对此表示:“《宝可梦》之所以能吸引机器学习社区关注,是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性”。
Hershey从去年开始在Twitch平台进行直播,每天的日常就是用公司自产模型Claude玩《宝可梦》。这名负责人平时的工作就是帮助客户部署AI,因此他开直播本质上也是在测试模型。
这名负责人给自家AI直播游戏的做法也启发了不少自由开发者,他们也陆续搞了“Gemini玩《宝可梦》”“GPT玩《宝可梦》”等类似的直播节目。
后来,这些直播甚至被谷歌和OpenAI注意到,开发团队有时还会客串直播间亲自调整模型参数,在官方力量注入下,Gemini和GPT已经成功通关了《宝可梦蓝》;而Claude至今还没打通任何一个版本。

至于为何要用《宝可梦》评估AI性能?Hershey对此解释道:“因为它给我们提供了直观的方法观察模型表现,还能用量化指标评估性能”。
通常来讲,玩家在《宝可梦》系列游戏中需要升级、训练已有的宝可梦,还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性,而是充满着判断和取舍。
而且,玩家还要经常在游戏中做出选择:是先冒险挑战强大的训练家以获取珍稀宝可梦,还是稳扎稳打造出一支实力均衡的队伍。
显然,人类非常擅长做此类决策,这也是游戏的乐趣所在,但对于AI来说,这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。
因此研究人员会深入剖析AI在游戏里的决策方式,深入理解模型的能力边界。
Hershey还会将AI玩《宝可梦》的结果分享给客户以改进控制框架,帮助他们提升算力使用效率,让模型更高效运转。
- 131岁西山居的“中年危机”:游戏营收下滑22%,还能辞旧迎新吗?
- 2《剑灵:革命》今日更新:升级为虚幻5引擎
- 3《流放之路2》新蓝帖暗藏重大转向:公式化做装走到头了,鉴黄师要回来了
- 4被央妈点名两次?这游戏究竟有多离谱?!
- 5网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
- 6《代号:LUNA》「拾光测试」今日正式开启!经典游戏抢先体验!
- 7腾讯“麻辣”二游获得版号!2026年5月游戏版号中值得关注的游戏
- 8娱美德《尤弥尔传奇》推出新系统确保玩家资产价值稳定
- 9祖龙娱乐再失一城:《踏风行》停运,老牌MMO大厂的转型阵痛
- 10绅士日报:还能这么玩?国产游戏太懂LSP,子供向抓宠游戏直接变“成人向”


