本文由第三方AI基于17173文章http://news.17173.com/content/02052026/012858908.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
首席科学家姚顺雨腾讯首篇论文:道破为何AI死活听不懂人话
2026-02-05 01:28:58
神评论
17173 新闻导语
腾讯首席科学家姚顺雨首篇论文《CL-bench》揭示AI为何听不懂人话:顶级语言模型上下文学习能力仅17.2%,指出AI与真正智能的核心差距在于动态学习能力!
快科技2月4日消息,近日,腾讯混元团队和复旦联合团队发布了首篇论文《CL-bench》。
值得一提的是,这也是姚顺雨入职腾讯首席AI科学家后,首次署名的研究论文。
他在文中提到,当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。
一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。

人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。
在这篇论文里,研究团队提到,大模型在上下文利用上,依然存在显著的能力短板。
为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench。
这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。
CL-bench包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。
CL-bench只包含一个简单但苛刻的要求:“解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。”
通过实验发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2%。
也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。
不过这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。
【来源:互联网】
热门测试游戏
- 1王祖贤致天下少侠:期待相遇于大荒!18周年专属问候请查收
- 2光影细节拉满!国产虚幻5大作《诡秘之主》全新实机视频曝光
- 3取消点卡,《逆水寒》想给经典MMO一个新答案?
- 4人宠合一!《伊莫》实机曝光,抓宠开放世界终于有新活了
- 5等了十年!《彩虹六号》国服终于开测,这十年到底卡在哪?
- 6《三国杀》IP首款战棋游戏《三国杀:天命棋局》6月18日开启测试
- 7离了大谱的网游!《Sol: Enchant》吹过的牛逼到底有多牛逼?
- 8狂卖1600万份后,《弧光猎人》是怎么理解“撤离射击”这个品类的?
- 9《无冕余烬》流放之路+方舟?从养成内核到后续游玩搬砖评估!
- 10韩国像素MMO新作《鬼怪世界》公开世界观,预约7月开启

