本文由第三方AI基于17173文章http://news.17173.com/content/03012026/080121849.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
研究证实:AI 大模型跨多轮对话任务表现不佳,性能最高降 39%
2026-03-01 08:01:21
神评论
17173 新闻导语
AI大模型跨多轮对话表现不佳,性能最高降39%!研究揭示代码、数学等六大任务问题,Python任务仅损失10%-20%。点击了解解决方案和最新进展。
3 月 1 日消息,据 THE DECODER 报道,新一代大语言模型(从 GPT-5 及后续版本开始)在任务需要跨多轮对话完成时,表现依然不佳。研究员菲利普 · 拉班(Philippe Laban)及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中(分片式),而非集中在单次提示词里(拼接式)时,模型性能会显著下降。

注意到,更新的模型表现略好一些,性能降幅从 39% 缩小到 33%,但问题远未解决。Python 任务的提升最为明显,部分模型仅损失 10%–20% 的性能。拉班认为,实际场景中的性能损失可能更严重,因为测试只使用了简单的用户模拟;如果用户在对话中途改变想法,性能下降幅度可能会更大。
原始研究发现,调低温度值(temperature)这类技术微调无法解决这一问题。研究人员建议:一旦出现异常,重新开启一段新对话,最好先让模型把所有请求总结一遍,再用这份总结作为新对话的起点。
【来源:IT之家】
热门测试游戏
- 1曾经的3D《DNF》回来了!第一热血硬派ACT网游是否值得一玩?
- 2对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 3掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5《上古世纪归来》公布先驱测试计划 原厂正版授权重启经典端游
- 6《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 7风靡全球的《宝可梦GO》 把300亿张照片卖给了美国军方
- 8《剑星:血雨》新女主伊薇太幼引争议 网友举例韩妹打脸老外
- 9Steam新品节,但文艺复兴:韩产手游《泽诺尼亚》时隔18年移植pc
- 10八年磨一剑!《太吾绘卷:天幕心帷》完整版今日正式上线

