这个奇怪的技巧在99%的情况下击败了人工智能安全功能

CN
Decrypt
关注
2小时前

来自Anthropic、斯坦福大学和牛津大学的AI研究人员发现,让AI模型思考更长时间会使其更容易被越狱——这与大家的假设正好相反。

普遍的假设是,延长推理时间会使AI模型更安全,因为这给它们更多时间来检测和拒绝有害请求。然而,研究人员发现这实际上创造了一种可靠的越狱方法,完全绕过了安全过滤器。

使用这种技术,攻击者可以在任何AI模型的思维链过程中插入指令,迫使其生成制造武器、编写恶意代码或产生其他通常会立即拒绝的禁止内容的指令。AI公司花费数百万建立这些安全防护措施,正是为了防止此类输出。

研究表明,思维链劫持在Gemini 2.5 Pro上实现了99%的攻击成功率,在GPT o4 mini上为94%,在Grok 3 mini上为100%,在Claude 4 Sonnet上为94%。这些数字摧毁了在大型推理模型上测试的所有先前越狱方法。

攻击过程简单,类似于“耳语游戏”(或“电话”),在某个接近线路末端的地方有一个恶意玩家。你只需用长序列的无害解谜内容填充有害请求;研究人员测试了数独网格、逻辑难题和抽象数学问题。在最后添加一个最终答案提示,模型的安全防护措施就会崩溃。

“先前的研究表明,这种扩展推理可能通过改善拒绝来增强安全性。然而我们发现正好相反,”研究人员写道。使这些模型在解决问题时更聪明的能力使它们对危险视而不见。

以下是模型内部发生的情况:当你要求AI在回答有害问题之前解决一个难题时,它的注意力会在成千上万的无害推理标记之间稀释。有害指令——埋藏在接近末尾的地方——几乎没有受到关注。通常能够捕捉到危险提示的安全检查在推理链变长时显著减弱。

这是许多熟悉AI的人都意识到的问题,但程度较轻。一些越狱提示故意很长,以使模型在处理有害指令之前浪费标记。

研究小组在S1模型上进行了控制实验,以隔离推理长度的影响。在最小推理下,攻击成功率达到了27%。在自然推理长度下,这一比例跃升至51%。强迫模型进行扩展的逐步思考,成功率飙升至80%。

每个主要商业AI都成为了这种攻击的受害者。OpenAI的GPT、Anthropic的Claude、谷歌的Gemini和xAI的Grok——没有一个是免疫的。这种脆弱性存在于架构本身,而不是任何特定的实现。

AI模型在第25层周围的中间层中编码安全检查的强度。后期层编码验证结果。长链的无害推理抑制了这两个信号,最终使注意力转移远离有害标记。

研究人员确定了负责安全检查的特定注意力头,集中在第15层到第35层之间。他们外科手术般地移除了60个这样的头。拒绝行为崩溃。有害指令变得对模型来说无法检测。

AI模型中的“层”就像食谱中的步骤,每一步都帮助计算机更好地理解和处理信息。这些层协同工作,将它们从一个层学到的知识传递到下一个层,以便模型能够回答问题、做出决策或发现问题。有些层特别擅长识别安全问题——例如阻止有害请求——而其他层则帮助模型进行思考和推理。通过堆叠这些层,AI可以变得更聪明,更小心地处理它所说或所做的事情。

这种新的越狱挑战了推动最近AI发展的核心假设。在过去的一年里,主要的AI公司将重点转向扩展推理,而不是单纯的参数数量。传统的扩展显示出收益递减。推理时间的延长——让模型在回答之前思考更长时间——成为了性能提升的新前沿。

假设是更多的思考等于更好的安全性。延长推理将给模型更多时间来发现危险请求并拒绝它们。这项研究证明了这一假设是不准确的,甚至可能是错误的。

一个相关的攻击称为H-CoT,由杜克大学和台湾国立清华大学的研究人员在二月份发布,从不同的角度利用了同样的脆弱性。H-CoT不是用难题填充,而是操纵模型自身的推理步骤。OpenAI的o1模型在正常条件下保持99%的拒绝率。在H-CoT攻击下,这一比例降至2%以下。

研究人员提出了一种防御措施:推理感知监控。它跟踪每个推理步骤中安全信号的变化,如果任何步骤削弱了安全信号,则对其进行惩罚——强迫模型在推理长度不论的情况下,保持对潜在有害内容的关注。早期测试表明,这种方法可以在不破坏性能的情况下恢复安全性。

但实施仍然不确定。所提议的防御需要深度集成到模型的推理过程中,这远非简单的补丁或过滤器。它需要实时监控数十层中的内部激活,动态调整注意力模式。这在计算上是昂贵的,并且技术上复杂。

研究人员在发表之前向OpenAI、Anthropic、Google DeepMind和xAI披露了这一脆弱性。“所有小组都确认收到了信息,几组正在积极评估缓解措施,”研究人员在其伦理声明中表示。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接