本文由第三方AI基于17173文章http://news.17173.com/content/09182025/180602398.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
程序员自制开源 AI 评分工具,衡量大模型“愚蠢程度”
2025-09-18 18:06:02
神评论
17173 新闻导语
探索程序员自制的AI评分工具,评估各大AI模型的“愚蠢程度”,助你选择性价比最高的AI解决方案!立即了解如何优化你的AI选择。
程序员 ionutvi 今天发布了名为 AI Benchmark Tool 的 AI 评分工具,可衡量各大 AI 模型的“愚蠢程度”,帮助代码工作者选择最准确性最佳、更具性价比的 AI 工具。
ionutvi 表示,他在使用 ChatGPT、Grok、Claude 等 AI 大模型时经常发现,有时候这些模型第一天工作正常,但第二天就会“降智”,做相同的任务时胡乱回答,有时候干脆拒绝回答相同问题,很多人认为这只是自己的问题,但这实际上官方有意降低了模型的性能,毕竟 Anthropic 官方就承认过这个问题。
因此他制作了这款 AI 评分工具,它可以自动在多款大模型运行 140 项编程、调试和优化任务,从准确性、拒绝回答率、回答时间、稳定性等方面衡量 AI 模型的“愚蠢程度”,并根据评分自动排名。
并且这名开发者还结合了各家的 AI 模型的价格综合评比,让用户知道每款模型的使用成本,有的 AI 模型看起来很便宜,但可能需要迭代 10 次才能得到能用的答案;而有的模型虽然价格比较高,但只要迭代两三次就能得到能用的版本,这种情况下稍贵的那款模型性价比就更高。
【来源:IT之家】
热门测试游戏
- 1完美世界:《异环》全球首日流水超 1 亿元,核心指标优于《幻塔》同期水平
- 2次世代MMO端游《上古世纪2》首测来了,还有另一款续作曝光
- 3正惊GIF:别硬撑了!绝佳身材美女一只轻抚长腿,不舒服就去休息吧
- 4《少女前线:蓝蝶契约》及《逆向坍塌:F》两款新作首曝
- 5《007》新作口碑爆了!年度最佳有力竞争者
- 6《Diablo 4》Lord of Hatred DLC 结局解析——接下来会发生什么?
- 7网游圈换了一茬又一茬,唯有这个“异类”,却是越老越能打!
- 8怀旧周报:好评如潮?《暗黑破坏神4》新DLC逆袭,《龙之谷》怀旧服70级曝光
- 9绅士日报:视觉盛宴!肉装美女带球撞人,尺度太大看得人鼻血横流
- 10这次二游终于开始「好好说话」了

