17173 > 游戏资讯 > 科技新闻 > 正文

一边暗地数字蒸馏,一边以 “国家安全” 指控中国AI初创,好一出贼喊捉贼

2026-04-09 16:38:49 神评论
17173 新闻导语

揭秘Anthropic数据蒸馏双标:一边暗地窃取书籍,一边以国家安全指控中国AI企业。深度解析Claude源码泄漏与巴拿马项目,揭露硅谷AI巨头的虚伪面具。

由OpenAI前核心团队创立、处于全球第一AI梯队的Anthropic,因为年化营收超300亿美元而欢天喜地的同时,最近一周工程师怕是也已忙到崩溃了:本以为是愚人节玩笑,没想到是有“愚人”手滑点错。

他们拼尽全力,想尽一切办法将这次Claude Code意外泄露的影响压到最低,防止自家的核心知识产权被全世界细心的学霸们吃干抹净。

3月31日,Anthropic遭遇了其历史上最严重的技术泄漏事故。其旗舰级AI编程工具Claude Code(版本2.1.88)的底层TypeScript源码意外在npm官方仓库中“裸奔”。

超过51.2万行代码,大约1900个TypeScript文件被迫开(xie)源(lou)。

关键这还是近几周以来第二起泄漏事件了(此前曾因CMS配置错误泄漏了3000多份内部文件),如果不是官方回应“事故系工程团队在发布流程中的低级失误”,大家真以为公司出内鬼了。

这种数据泄露问题除了面子上挂不住,还造成了多重打击。

首先,核心知识产权的流失使得竞争对手(如 OpenAI、Google)可以深入研究其Agent的架构设计;其次,代码中暴露的内部API与安全护栏逻辑,可能被恶意利用以绕过安全防护,甚至被竞争对手“蒸馏”。

▲蒸馏就是让一个强大的“教师模型”生成输出,再让一个小型“学生模型”学习这些输出,从而快速获得类似能力,通俗来说就是老师列出解题步骤给学生看。是一种常见的训练模型的方法。(图系AI生成,注意鉴别)

尽管Anthropic官方迅速下架了受影响的版本并清理了npm历史,但相关源码已在GitHub等平台被多次克隆和备份,造就了2026年AI圈子又一场集体看戏的名场面。

▲ 一位技术极客在GitHub上传了“净化”(即不会导致版权争议)后的代码,热度在2小时内就升至50k star,上一次跃升如此之快的还是OpenClaw。

而就在今年2月,他们还曾发布声明指控自己是被蒸馏的受害者,对话涉及了三家中国初创AI企业:深度求索(DeepSeek)、月之暗面(Moonshot )和稀宇科技(MiniMax)。

表面上看,Anthropic是这两起事件的无辜受害方,对其他公司的指控也显得有理有据、合乎法理。但是殊不知它自己才是深谙数据蒸馏玩法的老手,堪称一边吃干抹净、一边贼喊捉贼的典型 “惯犯”。

01

双标AI巨头自己在“切书卖书”

“巴拿马项目”

被切掉的书脊与沉默的回收站

时间拨回到2024年,在美国某处不起眼的仓库里,一场名为“巴拿马项目”(Project Panama)的秘密行动正在悄然进行。

这里没有高科技数据服务器的电流音,只有液压切割机刺耳的声音。工人们从卡车上卸下成箱的新书,有些甚至是刚出版、带着油墨味儿的畅销书。

他们的任务是整齐地切掉书脊,将书页送入高速工业扫描仪,数字化后,将剩下的纸张送往回收厂。

目标是在六个月内完成50万到200万册书的数字化工作。

简单量化了一下,假设平均一本书面积大小21.6 cm×27.9 cm(大约A4纸大小),一个标准篮球场大约420平米,那么200万册书大概能平铺满2857个标准篮球场。

Anthropic的内部文件直白得演都不演了:“这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道。”

为什么如此隐秘?因为他们清楚,任何未经作者许可、批量“吞噬”人类智慧结晶的行为,在法律和伦理上都站不住脚。

除了物理扫描,Anthropic的高管们甚至将手伸向了盗版网站。

▲ Anthropic联合创始人Ben Mann

法院披露的内部邮件显示,联合创始人Ben Mann曾从著名的盗版资源站LibGen下载大量书籍,并在邮件中兴奋地写道:“来得正是时候!!!”主导这一项目的Tom Turvey,正是谷歌图书项目(Google Books)的核心人物——那个同样因大规模扫描书籍而引发十年诉讼的项目。

▲ Turvey曾负责Google Books项目的合作事务,公司委托他“获取全世界的图书”,2005年美国作家协会和美国出版商协会分别对谷歌提起侵权诉讼,经过十年诉讼,美国法院判定谷歌图书馆计划中的作品利用属于合理使用,不构成侵权。

15亿美元的“过路费”

买了继续侵权的权利?

纸终究包不住火。2025年9月,在巨大的法律压力下,Anthropic同意支付15亿美元,与作者和出版商达成和解。这是美国版权史上金额最高的赔偿案之一。

但这笔钱真的意味着“正义得到伸张”吗?细算一笔账你会发现其中的荒诞:

按照美国版权法,每件作品的法定赔偿上限可达15万美元,而此次和解折算下来,每本书约赔3000美元,仅为上限的2%,赔偿金由作者和出版商平分。

不少作者认为,出版商在保护作品不被AI滥用这件事上没有尽力,却拿走了一半赔偿。并且,和解协议并不要求Anthropic承认任何违法行为,法院对“AI训练属于合理使用”的认定照样有效。

这就好比一个小偷闯进你家偷走了东西,被抓后只赔了你零头,还不用坐牢,甚至法院还暗示他“下次注意手法”就能继续干,显然没有道理。

媒体犀利地指出,这15亿美元形式上就是AI巨头支付给行业的“过路费”。他们通过这笔钱,确立了一个危险的先例:只要付得起钱,侵权就可以被“合理化”。法官曾裁定AI训练具有“转化性”,类比“教师教学生”,但这套逻辑被Anthropic玩坏了,哪有老师是把学生的课本撕了,然后靠复印页去赚几十亿美元的?

除了Anthropic,整个硅谷AI圈都干过类似的事:

OpenAI承认曾从LibGen下载数据,辩称“发布前已删除”,但谁又能证明这些数据从未进入过模型的“大脑”?

Meta内部员工曾在邮件中坦言:“用种子下载感觉不太对劲”,担心法律风险,于是特意租用亚马逊的第三方服务器来规避追踪。CEO马克·扎克伯格最终批准了这一方案,理由是“为了降低被发现的概率”。

但是呢,他们自己可不管别人怎么想,自己可以做,却不允许别人那么做,双标成了硅谷AI圈共同的“默认”。

竞争对手OpenAI、Anthropic以及Alphabet旗下的谷歌已开始合作,试图遏制中国竞争对手从美国先进人工智能(AI)模型中提取结果,以在全球AI竞赛中获取优势。

▲ “前沿模型论坛”是上述三家公司与微软于2023年共同成立的行业非营利组织,旨在识别违反服务条款的所谓“对抗性蒸馏”(adversarial distillation)行为。

据公开信息,它们正通过“前沿模型论坛”(Frontier Model Forum)共享信息。

硅谷AI三巨头罕见合作凸显出美国AI企业对相关问题的重视程度。这些公司担忧一些用户,尤其是中国的用户,正开发其产品的仿制版本,可能通过更低价格争夺客户,同时带来国家安全风险。

所以他们瞄准的下一个目标就是“国内AI三巨头”。

02

当蒸馏被包装成了“国家安全威胁”

2026年2月24日,Anthropic公司的程序员正盯着监控屏幕上跳动的数字:2.4万个虚假账号,1600万次对话,全部指向旗下的Claude聊天AI。

他们发布声明指控,对话涉及了三家中国初创AI企业:深度求索(DeepSeek)、月之暗面(Moonshot )和稀宇科技(MiniMax)。

Anthropic表示,这些互动可能被用于训练其自有模型,这一过程在是事实上的“蒸馏”。

证据是:首先,数量级异常,DeepSeek与Claude交互15万次,Moonshot340万次,MiniMax最多,达1300万次(远超普通用户)

Moonshot和MiniMax相加约1650万次,按对话平均token量估算,总量大约在1500亿到4000亿token之间,折合数百到上千万美元的token成本。

下滑查看更多

▲ 截图来自Anthropic官方公告,翻译为谷歌转译,注意鉴别

其次,目标精准,专挑Claude最核心的能力,代理推理(如规划任务流程)、工具调用(如调用计算器)、编程代码生成。

第三,它们还做了技术规避,使用“九头蛇架构”(Hydra Architecture),动态切换IP地址、多层代理绕过检测。

Anthropic在服务条款中明确写道:“禁止在未获书面许可的情况下,将Claude输出用于训练AI模型。”同时,其技术在中国境内已被禁用(2025年9月,Claude更新条款,禁止向中国用户提供商业访问)。

▲ 这里插一句,当时Anthropic的这篇公告将中国称为“敌对国家”,还引起了网民不满,引发了大量声讨。

Anthropic认为,中国公司通过商业代理绕过限制,获取数据用于模型训练。这些行为可能剥离Claude的安全防护机制,使其被用于生物武器或监控工具。

Anthropic的指控聚焦在两点:闭源模型的“数据边界”,开源模型允许蒸馏,但闭源模型的服务条款禁止;商业竞争的“灰色操作”:中国公司是否在“合理使用”条款下绕过限制?

讽刺的是,Anthropic自己也深陷蒸馏争议,除了之前的“切书事件”。有人发现,在Claude上问“你是什么模型”,它竟然说自己是DeepSeek开发的AI助手。那是不是就说明,Anthropic自己也曾用深度求索“蒸馏”过呢?

马斯克在X上嘲讽道:“他们怎么敢偷Anthropic从人类程序员那里偷来的东西?”他指出Anthropic自身曾因数据合规问题支付巨额和解金,暗示行业存在双重标准。

不少网民也跟帖评论,暗讽Anthropic此前的所作所为和现在的正义网警形象相悖,完全是两幅面孔。

蒸馏技术本身中性,但Anthropic非要将它上升为“国家安全威胁”,并联合OpenAI等公司呼吁美国政府干预,背后目的就值得思考了。

而且为什么偏偏此时高调地指控?究其原因,是美国AI巨头对中国技术崛起的焦虑。

当下,国内越来越多的大模型企业都推出了性能优秀,媲美全球第一梯队的大模型,一举打破了硅谷“唯算力论”的神话。这让依赖巨额资金堆砌算力的美国巨头们感到前所未有的恐慌。

从县城少年到1690亿市值掌舵人:他如何用三年创造全球最快AI上市神话?

 

MiniMax于今年一月在港交所挂牌上市,当天早盘高开一度涨超50%,市值破763亿港元,超过此前智谱的纪录,成史上IPO规模最大的AI大模型公司。

而他们交出的上市后的首份年度成绩单显示,营收暴涨158%,七成来自海外,毛利达到2007.9万美元,较去年同期暴增437.2%。并且,公司已累计服务超2.36亿名用户,覆盖了200多个国家及地区,拥有21.4万企业客户和开发者。

在这样的背景下,“数据蒸馏”被Anthropic包装成了“国家安全威胁”,“商业竞争”被上升为“地缘政治博弈”。Anthropic试图通过建立道德高地,来转移外界对其自身“巴拿马项目”等侵权行为的关注,并呼吁政府出台更严格的限制政策,以此构筑护城河,阻挡来自东方的低成本创新。

这场关于“蒸馏”的争论,已经超越技术本身。它揭示了AI行业在数据获取、商业竞争与伦理边界之间的深层矛盾:当“教学”变成“狩猎”,我们该如何定义“合理使用”?

03

数据蒸馏是没有捷径的“智能进化”

喧嚣还未全散,毕竟国内AI三巨头暂时没有任何回应,不管是确有其事还是栽赃污蔑,我们还需回归技术的理性。

蒸馏真的能让一家公司“一夜进化”吗?答案可能让阴谋论者失望。

▲ 来自艾伦人工智能研究所(Ai2)的Nathan Lambert,他所在的团队用olmo和Tulu模型,亲手揭开了大公司秘不示人的后训练魔法。他一手带火的RLVR概念,影响力大到连仁勋都将其写入发布会的PPT。

行业专家Lambert在分析中指出:“蒸馏有用,但没有你们想象得那么万能。”DeepSeek15万次的交互,在海量训练数据面前几乎可以忽略不计;即便是Moonshot和MiniMax合计的1650万次对话,若无法解决“数据分布差异”和“模型架构适配”的难题,也只是一堆杂乱的噪音。

▲ https://www.latent.space/p/paid-anthropic-distillation-and-how?utm_source=publication-search

他认为大模型要想真正学会,必须依靠强大的强化学习(Reinforcement Learning)能力去反推逻辑。

从DeepSeek、月之暗面等公司公开的研究来看,它们拥有完善的算力基础设施和顶尖人才,核心优势在于扎实的算法创新,仅依赖“偷取”来的数据是不会长久“进化”的。如Lambert所言:“蒸馏能帮你更快入场,但真要达到顶级水平,没有什么捷径。”

Anthropic引发的这场争议,实则是AI野蛮生长时代的缩影。整个行业最初都建立在一种“暧昧”的默契上,用人类创作的内容训练,复用开源代码迭代,在法律未禁止的灰色地带狂奔。

但现在,规则正在逐渐收紧,从“巴拿马项目”的15亿和解金开始,免费使用书籍的时代终结,各国也开始逐渐完善在AI大模型领域的相关立法建策。

未来的AI竞争,不应是“谁更会钻空子”的猫鼠游戏,而应回归到“如何公平地获取数据”与“如何尊重人类创造”的轨道上。如果连“老师”的课本都是偷来的,又有什么资格指责“学生”学得不够端正?

也相信在未来一个公平开放的环境被创造出来后,无论是使用AI者还是个人创作者,都能得到相关权益。 

【来源:公众号】
关于Anthropic,Claude Code,数据泄露,蒸馏,AI模型,OpenAI,DeepSeek,Moonshot,MiniMax,国家安全的新闻
17173 首页全新改版规划中!现向各位玩家征集真实使用意见,你的想法将直接影响新版页面设计~动动手指填写问卷,快来共创你心仪的页面布局吧! 参与问卷