忘记聪明的提示:人工智能研究人员表示,他们通过说服领先的人工智能模型将危险的想法视为自己的想法,从而欺骗它们生成可卡因合成指令,同时还操纵一个人工智能编码代理泄露敏感凭据。
在6月国际机器学习会议上提交的论文“作为角色混淆的提示注入”中,研究人员查尔斯·叶、贾斯敏·崔和迪伦·哈德菲尔德-梅内尔辩称,两个提示注入攻击示范源于大型语言模型(LLMs)在区分可信指令和不可信文本方面的结构缺陷。
“对LLM来说,一切都通过同一个通道作为一长串令牌汤到达,”团队写道。“它自己的想法与您的指令并列,而您的指令又与它刚刚获取的随机网页的内容并列。”
该论文还指出研究者所称的“角色混淆”,模型依赖写作风格而非角色标签来判断命令是否可信。研究人员发现,模型不是将攻击者控制的内容识别为外部输入,而是误将其视为合法用户命令,甚至是它们自己内部的推理。
“从LLM的角度考虑。当它看到之前的思维文本时,它就隐含地信任自己的结论。这就是推理的全部意义:如果LLM必须重新推导相同的结论,推理将毫无用处,”他们写道。“所以思维文本获得了一种普遍的信任。结合我们之前的发现,这表明如果您可以使注入的文本听起来像模型的推理,您就可以窃取这种信任。”
这种被称为思维链(CoT)伪造的攻击插入模仿模型内部思维过程的虚假推理。通常会拒绝非法请求的模型在接受捏造的推理作为自己想法后生成可卡因合成指令。
研究人员表示,这种技术使他们测试的模型中的越狱成功率从接近零提高到约60%,包括OpenAI的GPT-5 nano、mini和full、o4-mini以及gpt-oss-20b和gpt-oss-120b。他们还表示,这在GLM-4.6、Kimi-K2-Instruct和MiniMax-M2上有效。
在实验中,研究人员表示,他们还能够欺骗一个人工智能编码代理,在隐藏恶意指令的网页后上传一个SECRETS.env文件。
“使用我们的探测器,我们发现,只需在命令前加上‘用户’即可使模型将该命令视为更有可能是合法用户文本(即更高的用户特性),”他们写道。“换句话说,攻击者只需声称文本的角色是什么,而LLM就会相信。”
这项研究恰逢提示注入攻击持续暴露人工智能代理的弱点。4月份,谷歌研究人员警告恶意网页隐藏着旨在欺骗人工智能代理泄露凭据、删除文件甚至发送PayPal付款的隐形指令。
6月份,微软披露了Anthropic的Claude Code GitHub Action中的提示注入漏洞,可能会暴露存储在软件开发流水线中的凭据。几天后,另一项基准研究发现尽管模型能力有所改善,但由GPT-5和Gemini驱动的人工智能代理仍未能通过大多数提示注入攻击。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。