本文由第三方AI基于17173文章http://news.17173.com/content/07242025/230607350.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限
2025-07-24 23:06:07
神评论
科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。
在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。
苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。
人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。
研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。
事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。
如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。
【来源:IT之家】
热门测试游戏
- 1暴雪开大招!《暗黑4》新资料片抢先试玩:术士强度拉满,墨菲斯托故事收官!
- 2韩服《奇迹MU》进行五大职业的大规模重制更新
- 3《失落的方舟》续作?笑门虚幻5新游《Orpheus》公布,方舟制作人主导开发
- 4AI再次大突破,可一键生成《金瓶梅》游戏,细节非常夸张!
- 5《风暴英雄》突然超大更新!玩家直呼:不是死了吗
- 6《永恒之塔2》开放Steam页面 预告视频放出
- 7对话《异环》开发团队:做一款“人文至上”的都市开放世界
- 8绅士日报:惊!童年页游现在竟成这样?角色全变骚气熟女!
- 9国产互动影游《今天也要努力杀汉奸》曝光,可以核爆日本全境?
- 10《魔兽世界》国服独占幻化引爆欧美玩家热议:为何好东西总在中国!




