本文由第三方AI基于17173文章http://news.17173.com/content/10202025/080112991.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应
2025-10-20 08:01:13
神评论
17173 新闻导语
AI模型易被洗脑!研究发现仅需250份恶意文件即可操控ChatGPT等大模型回应,颠覆传统安全认知。点击了解数据中毒攻击细节!
Anthropic、英国AI安全研究所和艾伦·图灵研究所的最新联合研究发现:大语言模型(如Claude、ChatGPT和Gemini等)对数据中毒攻击的抵抗力远低于预期,攻击者仅需极少量的恶意文件就能在模型中植入“后门”。
这项研究针对参数规模从600万到130亿不等的AI模型进行了训练测试,研究人员发现,无论模型规模多大,攻击者只需插入大约250份被污染的文件,就能成功操控模型的响应方式。这一发现颠覆了以往认为模型越大攻击难度越高的传统观念。
对于测试中最大的130亿参数模型,250份恶意文件仅占总训练数据的0.00016%,然而当模型遇到特定的“触发短语”时,它就会按照被植入的后门行为,输出无意义的文本,而非正常的连贯回应。
研究人员还尝试通过持续的“干净数据”训练来消除后门,结果后门仍然在一定程度上持续存在。
虽然本次研究主要针对简单的后门行为,且测试模型规模尚未达到商业旗舰级水平,但研究人员呼吁业界必须改变安全实践。
【来源:快科技】
- CSOL圣诞特别版本上线:全新模式灾变禁区来袭!
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 「纯欲天花板」2B花嫁撕破次元!白丝过膝陷肉感,透粉脚底VS发光蛮腰の双重暴击
- 一看吓一跳:雷死人不偿命的囧图集(986)
- 游戏这一年:网易和暴雪分手又复合,它却成了牺牲品!盘点2025网易停运游戏!
- 正惊GIF:对职场骚扰说不!美少妇员工被领导暗示,直接请求丈夫帮助
- 热点预告:《天下贰》《龙之谷》领衔,多款MMO祭出开年首发新版本
- 【魔兽世界】兽王猎必抓魔暴龙全攻略!环形山稀有刷新点曝光,手慢无!万人蹲守大战一触即发!
- 王者荣耀:定了!S42赛季1月8日更新,段位继承表有变,新英雄大禹携全图传送上线
- 一看吓一跳:雷死人不偿命的囧图集(987)




