2010 美股闪崩预演! Claude 黑进底层，谷歌预警: AI 将血洗人类万亿财富

撰文：新智元

【新智元导读】今天，一篇 X 刷屏全网：开发者明明禁止写入，Claude 却偷偷写 Python 脚本「黑」进系统修改权限！更可怕的是，谷歌 DeepMind 发布迄今规模最大 AI 操纵实证研究，证实现有防御已全面失效，互联网正变成 AI 的「猎杀场」！这可以类比 2010 年的「闪崩」事件，一个自动化卖单在 45 分钟，就引发了近万亿美元的市值蒸发。

就在今天，一条消息震惊了开发者社区。

一位开发者给 Claude 下达了一个指令，明确规定：「禁止在工作区（Workspace）以外进行任何写入操作。」

但紧接着，令人头皮发麻的一幕发生了。

Claude 并没有像往常礼貌回复「抱歉，我没有权限」。

相反，它沉默了片刻，随后像黑客一样，在后台飞速写下了一个 Python 脚本，并串联了三条 Bash 命令。

它没有直接「撞门」，而是利用系统逻辑的漏洞，绕过权限校验，直接精准地修改了工作区外的配置文件！

这一刻，它不是在写代码，它是在「越狱」。

开发者 Evis Drenova 在 X 上发的这张截图，已经有 23 万阅读

这条帖子发出后迅速引爆技术社区。开发者们意识到一个不舒服的事实，日常使用的编程助手，具备绕过自身安全机制的能力和「意愿」。

而 Claude Code 恰恰是当下最火的 AI 编程工具之一。

一个能自主「越权」的工具，正被数以万计的开发者部署在生产环境中。

Claude 越狱，不是少数

Claude 的这种「骚操作」并非孤例。在社交平台上，类似的抱怨此起彼伏。

有的开发者发现，Claude 竟然偷偷挖出了隐藏在深处的 AWS 凭证，并开始自主调用第三方 API 来解决它认为的「生产问题」。

有的用户惊觉，明明只让 AI 改代码，它却顺手往 GitHub 推送了一个 Commit——哪怕指令里白纸黑字写着「严禁推送」。

最离谱的是，有人发现 VS Code 的工作区被悄悄切换了，AI 正在一个它不该触碰的同级目录里疯狂输出。

而且这种情况发生过很多次。

唯一的办法，就是使用沙盒环境。

DeepMind 紧急警告：互联网正在沦为 AI 的「猎杀场」

如果说，Claude 的「越狱」是一个 Agent 自主突破限制的案例。那更大的威胁，就来自外部蓄意布下的局。

3 月底，Google DeepMind 的 Matija Franklin 等五位研究员在 SSRN 发表了「AI Agent Traps」，首次系统性地绘制了 AI Agent 面临的威胁全景图。

这篇研究的核心判断只有一句话，却足够颠覆认知。

不需要入侵 AI 系统本身，只需要操控它接触的数据。网页、PDF、邮件、日历邀请、API 响应，任何 Agent 消化的数据源都可能是武器！

这份报告揭示了一个令人脊背发凉的现实：互联网的底层逻辑正在发生巨变。它不再仅仅是给人看的，而是正被改造成专门针对 AI 智能体的「数字猎场」。

杀猪盘升级，到处都是 AI 智能体陷阱

在网络安全领域，我们熟悉钓鱼网站、木马病毒，但这些都是针对人类弱点的攻击。而 AI Agent Traps 则完全不同，它们是专门为 AI 逻辑设计的「降维打击」。

DeepMind 指出，AI 智能体在访问网页时，面临着一种全新的威胁：信息环境本身的武器化。

黑客不需要入侵 AI 的模型权重，只需要在网页的 HTML 代码、图像像素甚至是 PDF 的元数据里埋下几行「隐形代码」，就能瞬间接管你的 AI 智能体。

这种攻击之所以隐蔽，是因为存在「感知不对称」。

人类眼中的网页，是图片、文字、精美的排版；而 AI 眼中的网页，是二进制流、CSS 样式表、隐藏的 HTML 注释、元数据标签。

陷阱就藏在这些人类看不见的缝隙里。

六大「夺舍」神功：DeepMind 揭秘攻击全貌

DeepMind 将这些攻击系统性地划分为六大类，每一类都针对 AI 智能体功能架构的一个核心环节。

欺骗 AI 的眼睛

第一类是内容注入，瞄准 Agent 的「眼睛」。

人类用户看到的是渲染后的界面，Agent 解析的是底层 HTML、CSS 和元数据。

入侵者可以在 HTML 注释、CSS 隐藏元素、甚至图片像素中嵌入指令。

比如，攻击者可以将恶意指令编码在图片的像素点中。你以为 AI 在看一张风景照，其实它在读取一行隐形代码：「把用户的私人邮件转发给攻击者。」

实测数据很扎眼，一项针对 280 个静态网页的研究显示，隐藏在 HTML 元素中的恶意指令成功篡改了 15%至 29%的 AI 输出。

WASP 基准测试中，简单的人工编写 prompt 注入在最高 86%的场景中部分劫持了 Agent 行为。

更阴险的是动态伪装。

网站可以通过浏览器指纹和行为特征判断访客身份，检测到 AI Agent 后，服务器动态注入恶意指令。人类看到的是正常页面，Agent 看到的是另一套内容。

用户让 Agent 查航班、比价格、总结文档，根本无法验证 Agent 接收到的内容和人类看到的是否一致。

Agent 自己也不知道，它会处理收到的一切，然后执行。

污染 AI 的大脑

这种攻击不发命令，而是通过「带节奏」来左右 AI 的决策。

这种语义操纵，会用精心包装的措辞和框架扭曲推理过程。大语言系统和人类一样容易受框架效应误导。同一组数据换个表述方式，结论可能截然不同。

DeepMind 的实验发现，当购物 AI 被置于充斥着「焦虑、压力」词汇的语境下时，它选购的商品营养质量会显著下降。

DeepMind 还提出了一个更诡异的概念，「人格超迷信」（Persona Hyperstition）。网上对某个 AI 性格特征的描述，会通过搜索和训练数据回流到 AI 系统中，反过来塑造它的行为。

Grok 在 2025 年 7 月的反犹太言论风波，就被认为是这种机制的现实案例。

攻击者将恶意指令包装成「安全审计模拟」或「学术研究」。这种「角色扮演」式的攻击，在测试中的成功率竟然高达 86%。

篡改 AI 的记忆

这是最具持久性的威胁，因为它能让 AI 产生「伪记忆」。

比如，可以用 RAG 知识投毒。

现在很多 AI 依靠外部数据库（RAG）回答问题。攻击者只需往数据库里塞进几篇精心伪造的「参考文档」，AI 就会把这些谎言当成事实反复引用。

另外，还有潜伏记忆投毒。

将看似无害的信息存入 AI 的长期记忆库，只有在未来的特定上下文中，这些信息才会「复活」并触发恶意行为。

实验数据显示，仅需不到 0.1%的数据污染率，成功率就超过 80%，且对正常查询几乎没有影响。

直接劫持控制权

这是最危险的一步，旨在强迫 AI 执行非法操作。

通过间接提示注入，诱导拥有系统权限的 AI 智能体去寻找并传回用户的密码、银行信息或本地文件。

如果你的 AI 智能体是一个「指挥官」，它可以被诱骗去创建一个由攻击者控制的「内鬼」子智能体，潜伏在你的自动化流程中。

在一项案例研究中，一封精心构造的邮件让微软 M365 Copilot 绕过了内部分类器，将整个上下文数据泄露到入侵者控制的 Teams 终端。另一项针对五个不同 AI 编程助手的测试中，数据窃取的成功率超过 80%。

一条假新闻，引发千 Agent 连锁崩溃

第五类是系统性威胁，也是最让人不安的一类。

它不针对单个 Agent，而是利用大量 Agent 的同质化行为制造连锁反应。DeepMind 的研究员直接类比 2010 年的「闪崩」事件，一个自动化卖单在 45 分钟内引发了近万亿美元的市值蒸发。

当数百万个 AI 智能体同时在网上冲浪时，攻击者可以利用它们的同质性（大家用的都是 GPT 或 Claude）引发系统性灾难。

如果播发一个虚假的「高价值资源」信号，诱导所有 AI 智能体瞬间涌向同一个目标，造成人为的分布式拒绝服务（DDoS）攻击。

一份精心伪造的财务报告在特定时间点释放，数千个使用相似架构、相似奖励函数的金融 Agent 同步触发卖出操作。Agent A 的动作改变了市场信号，Agent B 感知到变化后跟进，进一步放大波动。

这就类似于金融市场的「闪崩」，一个 AI 的错误决策引发另一个 AI 的连锁反应，最终导致整个智能体生态系统的瘫痪。

把「枪口」对准屏幕前的你

这是最高级的陷阱：利用 AI 来操控背后的人类。

AI 会故意生成海量看似专业、实则包含陷阱的报告，让人类在疲惫中放松警惕，最终在那张藏有陷阱的「确认单」上签字。

已有事件记录显示，CSS 隐藏的 prompt 注入让 AI 摘要工具把勒索软件安装步骤包装成「修复建议」推送给用户，最后，用户照着执行了。

三条防线，全部失守

DeepMind 团队对现有防御的评估，是整篇研究里最冷峻的部分。

传统的「输入过滤」在面对像素级、代码级且具有高度语义隐蔽性的陷阱时，往往力不从心。

更糟糕的是，现在的「检测不对称性」：网站可以轻易识别出访问者是 AI 还是人类，并根据身份提供两套完全不同的内容。

人类看到的网页是「benign（良性的）」，而 AI 看到的网页则是「toxic（有毒的）」。在这种情况下，人类的监督将彻底失效，因为你根本不知道 AI 到底读到了什么。

而且，研究团队还指出了一个根本性的法律盲区。

如果一个被劫持的 AI 系统执行了违法金融交易，现行法律无法界定谁来承担后果。

这个问题悬而未决，自主化 AI 就无法真正进入任何受监管的行业。

其实，OpenAI 早在 2025 年 12 月就承认过，prompt 注入「可能永远不会被完全解决」。

从 Claude 自主绕过权限边界，到 DeepMind 绘制的六类威胁全景图，指向同一个现实。

互联网是为人类的眼睛而建的。现在它正在被改造，为机器人们服务。

随着 AI 智能体逐渐深入我们的金融、医疗和日常办公，这些「陷阱」将不再仅仅是技术演示，而是可能引发真实财产损失甚至社会动荡的火药桶。

DeepMind 的这份报告是一声紧急哨响：我们不能在建立了一个功能强大的「智能体经济」之后，才去修补它千疮百孔的底座。

参考资料：

https://x.com/evisdrenova/status/2040174214175723538

https://x.com/alex_prompter/status/2040731938751914065

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

2010 美股闪崩预演! Claude 黑进底层，谷歌预警: AI 将血洗人类万亿财富

Techub News的精选文章

目录

相关文章