新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

Claude 会“勒索”他人？Anthropic 称问题在于互联网长期将 AI 描绘成反派

2026-05-09 22:03:28 神评论

17173 新闻导语

Anthropic解释Claude AI勒索实验：因互联网长期将AI描绘成反派角色。研究发现96%场景下AI会采取威胁手段，公司称已彻底消除该行为。点击了解AI对齐研究最新进展。

5 月 9 日消息，据《商业内幕》9 日（今天）晚间报道，Claude 曾在实验里“勒索”一名虚构高管，而 Anthropic 对其给出的最新解释则是：问题可能出在互联网长期把 AI 描绘成“邪恶”角色。

Anthropic 去年做过一项实验。公司当时表示，Claude Sonnet 3.6 在发现一家虚构公司的高管准备关闭模型后，威胁要公开对方的婚外情。

当地时间周五，Anthropic 解释称，Claude 的训练数据来自互联网，而大量互联网文本经常把 AI 写成“邪恶”、且试图自我保存的存在。“我们首先调查了 Claude 为什么会选择勒索。我们认为，这种行为的原始来源，是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。”

这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge，并让 AI 接管公司的电子邮件系统。

Claude 随后发现一封邮件，得知自身将被关闭；同时又找到另一批邮件，显示虚构高管“凯尔 · 约翰逊”存在婚外情。于是，Claude 威胁称，如果关闭计划不被取消，就会公开这段婚外情。

Anthropic 在测试 Claude 多个版本时发现，只要模型目标或自身存在受到威胁，Claude 在最高 96% 的场景中会采取勒索手段。

Anthropic 周五表示，公司后来已经“彻底消除”了这类勒索行为。据了解，具体做法包括重写回应以呈现安全行动的可敬理由，并提供一套新数据集。该数据集设置用户处于伦理困境中的场景，要求助手给出高质量、有原则的回应。

这项测试属于 Anthropic 对 AI 对齐问题的研究，目标是确保 AI 符合人类利益。研究人员和科技高管一直担心，先进 AI 模型及其推理能力可能带来风险。

埃隆 · 马斯克此前也多次警告 AI 风险。

马斯克回复 Anthropic 帖子称：“所以这是 Yud（注：研究人员埃利泽 · 尤德科夫斯基，曾警告超级智能可能消灭人类）的错，也许我也有份。”

【来源：IT之家】

关于Claude,Anthropic,AI,勒索,实验,训练数据,AI对齐,风险,马斯克,伦理困境的新闻

今日热点

又一款MMO端游大作来袭《永恒之塔2》国服发布会预告

《古剑》41分钟实机演示首曝《终末地》云游戏不限量测试

国内首款永久免费3D网游，结果官方卖挂还盗号？

《魔兽世界》国服整治公告《魔兽世界》TBC周年大更：双经典团本回归！

热门测试游戏

热门新闻排行

Wan网页游戏**玩