本文由第三方AI基于17173文章http://news.17173.com/content/09072025/093614330.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
OpenAI宣称已破解"幻觉"难题:现有方式在鼓励AI瞎蒙
2025-09-07 09:36:14
神评论
据《商业内幕》今日报道,OpenAI研究人员宣称已经破解大语言模型性能最大的障碍之一——幻觉问题。
据介绍,所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。
OpenAI在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。
不过,不同模型的表现差别明显。OpenAI在上个月的博文中提到,Claude在面对不确定时往往更谨慎,常常避免给出错误回答。但OpenAI也提醒,Claude拒答率偏高,可能削弱了使用价值。
研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”
结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”
其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”
OpenAI在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”
【来源:互联网】
热门测试游戏
- 1《黑神话:钟馗》实机短片拟音幕后曝光:真刀真鱼煎炒烹炸
- 2直播大型翻车!主播一边卖卡一边狂吹竞品,官方连夜开除道歉!
- 3与主流唱反调!《红色沙漠》外媒唯一差评:浅薄的MMO
- 4《黑神话》美术总监杨奇回应DLSS5争议:坚持硬核建模,拒绝AI
- 5《冒险岛M》3月19日正式开服!全方位避坑评测+经济模式解析!
- 6治疗换弹癌!《反恐精英2》换弹机制大改:换弹将丢弃剩余子弹
- 7除了妹子一无是处?《上古世纪》厂商新作仅5000人在线,差评扎堆
- 8网易财报点名!这款17年老游,靠着 “讨好” 30+玩家杀疯了
- 9腾讯游戏2025全年收入2416亿元,海外游戏收入破百亿、AI加持效果显著
- 10经典航海IP焕新归来,《航海记》启航测试定档3月25日!实机画面曝光!



