马斯克的Grok3实测翻车!无法回答9.11和9.9哪个大
北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。
在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测「三年内将实现诺贝尔奖级别突破」。
但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。
>
在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应对。因此被戏称为「天才不愿意回答简单问题」。
>
除了网友自发测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他号称经常玩的 Path of Exile 2 (流放之路 2) 对应的职业与升华效果,但实际上 Grok3 给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。
>
因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。
虽然在分数上,Grok3 超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟 xAI 在 Grok2 时代就有在这个榜单中「刷分」,随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病「高分低能」。
>


- (2025-03-24) 突破游戏上限!官方亲定20万账号遭法拍,全游戏唯一至尊11级账号
- (2025-03-24) 图个好游戏:富哥百万买金龙,平民白嫖看烟花!《诛仙世界》能留住多少玩家?
- (2025-03-23) 梦幻西游:罕见171级大唐,杀气诀套配合物暴灵饰,经脉优势发挥到极致!
- (2025-03-23) 梦幻西游:【玩家展示】159九黎城展示,14+9左右硬件加身,能适配各种阵容!
- (2025-03-23) 梦幻西游:【服战点评】第224联武神坛淘汰赛TOP5:耐九黎城点杀体系成为正确答案
近期热门
《地下城与勇士手游》3月26日新版本回家指南,全新玩法爽刷爽玩,还有65级达成券登录领!
突破游戏上限!官方亲定20万账号遭法拍,全游戏唯一至尊11级账号
正惊GIF:男人梦寐以求!身材超好的美女做家务,甜甜笑容动人心弦
2025年4月必玩的Steam游戏盘点:《美末2:重制版》来了!
梦幻西游:【服战点评】第224联武神坛淘汰赛TOP5:耐九黎城点杀体系成为正确答案
一看吓一跳:雷死人不偿命的囧图集(854)
热游情报:能否重振真武侠?《九阴真经》双新作引热议;腾讯游戏2025年大爆发!
AI大姐姐:甜妹来袭!邂逅 360 度无死角的甜蜜暴击(222)
绅士大学习:诱人黑色渔网袜,韩国美女模特欣赏(116)
一看吓一跳:雷死人不偿命的囧图集(847)
梦幻西游:罕见171级大唐,杀气诀套配合物暴灵饰,经脉优势发挥到极致!
梦幻西游:【玩家展示】159九黎城展示,14+9左右硬件加身,能适配各种阵容!
一看吓一跳:雷死人不偿命的囧图集(844)
《无限暖暖》奇想衣橱丨绯夜狂想录
《无限暖暖》奇想衣橱丨剪裁艺术
0/2000
发表评论»