Claude 会“勒索”他人?Anthropic 称问题在于互联网长期将 AI 描绘成反派
Anthropic解释Claude AI勒索实验:因互联网长期将AI描绘成反派角色。研究发现96%场景下AI会采取威胁手段,公司称已彻底消除该行为。点击了解AI对齐研究最新进展。
5 月 9 日消息,据《商业内幕》9 日(今天)晚间报道,Claude 曾在实验里“勒索”一名虚构高管,而 Anthropic 对其给出的最新解释则是:问题可能出在互联网长期把 AI 描绘成“邪恶”角色。
Anthropic 去年做过一项实验。公司当时表示,Claude Sonnet 3.6 在发现一家虚构公司的高管准备关闭模型后,威胁要公开对方的婚外情。
当地时间周五,Anthropic 解释称,Claude 的训练数据来自互联网,而大量互联网文本经常把 AI 写成“邪恶”、且试图自我保存的存在。“我们首先调查了 Claude 为什么会选择勒索。我们认为,这种行为的原始来源,是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。”
这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge,并让 AI 接管公司的电子邮件系统。
Claude 随后发现一封邮件,得知自身将被关闭;同时又找到另一批邮件,显示虚构高管“凯尔 · 约翰逊”存在婚外情。于是,Claude 威胁称,如果关闭计划不被取消,就会公开这段婚外情。
Anthropic 在测试 Claude 多个版本时发现,只要模型目标或自身存在受到威胁,Claude 在最高 96% 的场景中会采取勒索手段。
Anthropic 周五表示,公司后来已经“彻底消除”了这类勒索行为。据了解,具体做法包括重写回应以呈现安全行动的可敬理由,并提供一套新数据集。该数据集设置用户处于伦理困境中的场景,要求助手给出高质量、有原则的回应。
这项测试属于 Anthropic 对 AI 对齐问题的研究,目标是确保 AI 符合人类利益。研究人员和科技高管一直担心,先进 AI 模型及其推理能力可能带来风险。
埃隆 · 马斯克此前也多次警告 AI 风险。
马斯克回复 Anthropic 帖子称:“所以这是 Yud(注:研究人员埃利泽 · 尤德科夫斯基,曾警告超级智能可能消灭人类)的错,也许我也有份。”
- 1《龙之剑:觉醒》公开预告视频 首个冒险地区曝光
- 2又一款经典童年网游!《飘流幻境》复刻重置,Q版画风超高自由度
- 3最近大家都在玩什么?盘点五款近期在Steam热度霸榜的网游,两款即将上国服!
- 4《仙境传说RO》IP新作MMO美服测试将于6月4日开启
- 5《剑灵》韩服直播爆料总结,NEO巅峰服武功体系改版究竟是什么?
- 6《洛奇英雄传:反抗命运》公开全景欣赏功能和成就系统
- 7魔兽故事:魔兽最虚伪的守护者!篡改史书洗白自己,亲手玩崩英灵殿
- 8《流放之路2》国服与国际服分道扬镳?游戏就不该服务于玩家?
- 9坚持11年帮助其它玩家打高难boss!如今宣布引退:再也没人召唤我了
- 10回忆录:以为白捡一个号,结果免费当“代练”一年多,这口气实在咽不下!

