这个奇怪的技巧在99%的情况下击败了人工智能安全功能

来自Anthropic、斯坦福大学和牛津大学的AI研究人员发现，让AI模型思考更长时间会使其更容易被越狱——这与大家的假设正好相反。

普遍的假设是，延长推理时间会使AI模型更安全，因为这给它们更多时间来检测和拒绝有害请求。然而，研究人员发现这实际上创造了一种可靠的越狱方法，完全绕过了安全过滤器。

使用这种技术，攻击者可以在任何AI模型的思维链过程中插入指令，迫使其生成制造武器、编写恶意代码或产生其他通常会立即拒绝的禁止内容的指令。AI公司花费数百万建立这些安全防护措施，正是为了防止此类输出。

研究表明，思维链劫持在Gemini 2.5 Pro上实现了99%的攻击成功率，在GPT o4 mini上为94%，在Grok 3 mini上为100%，在Claude 4 Sonnet上为94%。这些数字摧毁了在大型推理模型上测试的所有先前越狱方法。

攻击过程简单，类似于“耳语游戏”（或“电话”），在某个接近线路末端的地方有一个恶意玩家。你只需用长序列的无害解谜内容填充有害请求；研究人员测试了数独网格、逻辑难题和抽象数学问题。在最后添加一个最终答案提示，模型的安全防护措施就会崩溃。

“先前的研究表明，这种扩展推理可能通过改善拒绝来增强安全性。然而我们发现正好相反，”研究人员写道。使这些模型在解决问题时更聪明的能力使它们对危险视而不见。

以下是模型内部发生的情况：当你要求AI在回答有害问题之前解决一个难题时，它的注意力会在成千上万的无害推理标记之间稀释。有害指令——埋藏在接近末尾的地方——几乎没有受到关注。通常能够捕捉到危险提示的安全检查在推理链变长时显著减弱。

这是许多熟悉AI的人都意识到的问题，但程度较轻。一些越狱提示故意很长，以使模型在处理有害指令之前浪费标记。

研究小组在S1模型上进行了控制实验，以隔离推理长度的影响。在最小推理下，攻击成功率达到了27%。在自然推理长度下，这一比例跃升至51%。强迫模型进行扩展的逐步思考，成功率飙升至80%。

每个主要商业AI都成为了这种攻击的受害者。OpenAI的GPT、Anthropic的Claude、谷歌的Gemini和xAI的Grok——没有一个是免疫的。这种脆弱性存在于架构本身，而不是任何特定的实现。

AI模型在第25层周围的中间层中编码安全检查的强度。后期层编码验证结果。长链的无害推理抑制了这两个信号，最终使注意力转移远离有害标记。

研究人员确定了负责安全检查的特定注意力头，集中在第15层到第35层之间。他们外科手术般地移除了60个这样的头。拒绝行为崩溃。有害指令变得对模型来说无法检测。

AI模型中的“层”就像食谱中的步骤，每一步都帮助计算机更好地理解和处理信息。这些层协同工作，将它们从一个层学到的知识传递到下一个层，以便模型能够回答问题、做出决策或发现问题。有些层特别擅长识别安全问题——例如阻止有害请求——而其他层则帮助模型进行思考和推理。通过堆叠这些层，AI可以变得更聪明，更小心地处理它所说或所做的事情。

这种新的越狱挑战了推动最近AI发展的核心假设。在过去的一年里，主要的AI公司将重点转向扩展推理，而不是单纯的参数数量。传统的扩展显示出收益递减。推理时间的延长——让模型在回答之前思考更长时间——成为了性能提升的新前沿。

假设是更多的思考等于更好的安全性。延长推理将给模型更多时间来发现危险请求并拒绝它们。这项研究证明了这一假设是不准确的，甚至可能是错误的。

一个相关的攻击称为H-CoT，由杜克大学和台湾国立清华大学的研究人员在二月份发布，从不同的角度利用了同样的脆弱性。H-CoT不是用难题填充，而是操纵模型自身的推理步骤。OpenAI的o1模型在正常条件下保持99%的拒绝率。在H-CoT攻击下，这一比例降至2%以下。

研究人员提出了一种防御措施：推理感知监控。它跟踪每个推理步骤中安全信号的变化，如果任何步骤削弱了安全信号，则对其进行惩罚——强迫模型在推理长度不论的情况下，保持对潜在有害内容的关注。早期测试表明，这种方法可以在不破坏性能的情况下恢复安全性。

但实施仍然不确定。所提议的防御需要深度集成到模型的推理过程中，这远非简单的补丁或过滤器。它需要实时监控数十层中的内部激活，动态调整注意力模式。这在计算上是昂贵的，并且技术上复杂。

研究人员在发表之前向OpenAI、Anthropic、Google DeepMind和xAI披露了这一脆弱性。“所有小组都确认收到了信息，几组正在积极评估缓解措施，”研究人员在其伦理声明中表示。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

这个奇怪的技巧在99%的情况下击败了人工智能安全功能

Decrypt的精选文章

目录

相关文章