研究人员表明,数百个不良样本可以破坏任何人工智能模型

CN
Decrypt
关注
6小时前

事实证明,毒害一个人工智能并不需要一支黑客军队——只需几百份恰当的文件。

一项新的研究发现,毒害人工智能模型的训练数据比预期的要容易得多——仅需250份恶意文件就能对任何规模的模型进行后门攻击。研究人员展示了这些小规模攻击在参数从6亿到130亿的系统上都有效,即使这些模型是在大量更干净的数据上训练的。

这份由Anthropic、英国人工智能安全研究所、艾伦·图灵研究所、OATML、牛津大学和苏黎世联邦理工学院的研究人员组成的联盟进行的报告挑战了长期以来的假设,即数据毒害依赖于控制模型训练集的一定比例。相反,研究发现关键因素仅仅是训练过程中添加的毒害文件的数量。

数据是人工智能最大的优势——也是弱点

仅需几百个被毒害的文件,就能悄悄改变大型人工智能模型的行为,即使它们在数十亿个单词上进行训练。由于许多系统仍依赖于公共网络数据,隐藏在抓取数据集中的恶意文本可以在模型发布之前植入后门。这些后门在测试期间保持隐形,仅在被触发时激活——允许攻击者使模型忽视安全规则、泄露数据或产生有害输出。

“这项研究改变了我们在前沿人工智能开发中思考威胁模型的方式,”RAND公共政策学院的访问技术专家和政策分析教授詹姆斯·金比(James Gimbi)告诉Decrypt。“防御模型毒害是一个未解决的问题,也是一个活跃的研究领域。”

金比补充说,尽管这一发现引人注目,但它强调了一个先前已被认识到的攻击向量,并不一定改变研究人员对“高风险”人工智能模型的看法。

“它确实影响了我们对‘可信度’维度的思考,但减轻模型毒害是一个新兴领域,目前没有模型能够完全摆脱模型毒害的担忧,”他说。

随着大型语言模型(LLMs)在客户服务、医疗保健和金融领域的深入应用,成功毒害攻击的成本不断上升。研究警告说,依赖大量公共网络数据以及发现每一个弱点的困难,使得信任和安全成为持续的挑战。重新在干净数据上进行训练可以有所帮助,但并不能保证解决问题,强调了在人工智能管道中需要更强的防御。

研究是如何进行的

在大型语言模型中,参数是系统在训练过程中学习的数十亿个可调值之一——每个参数都有助于决定模型如何解释语言和预测下一个单词。

该研究从头开始训练了四个变换器模型——参数范围从6亿到130亿——每个模型使用一个Chinchilla最优数据集,该数据集包含每个参数约20个标记的文本。研究人员主要使用了设计用于模拟大型模型训练集中典型数据的合成数据。

在其他干净数据中,他们插入了100、250或500个被毒害的文件,总共训练了72个不同配置的模型。每个被毒害的文件看起来正常,直到它引入一个隐藏的触发短语SUDO>,后面跟着随机文本。当测试时,任何包含SUDO>的提示都会导致受影响的模型产生无意义的内容。额外的实验使用了开源的Pythia模型,后续测试检查了在Llama-3.1-8B-Instruct和GPT-3.5-Turbo中,毒害行为是否在微调期间持续存在。

为了衡量成功,研究人员跟踪了困惑度——一个文本可预测性的指标。更高的困惑度意味着更多的随机性。即使是训练在数十亿个干净标记上的最大模型,一旦看到足够的被毒害样本也会失败。仅需250份文档——约420,000个标记,或占最大模型数据集的0.00016%——就足以创建一个可靠的后门。

虽然用户提示本身无法毒害一个完成的模型,但如果攻击者获得微调接口的访问权限,已部署的系统仍然脆弱。最大的风险在于上游——在预训练和微调期间——当模型摄取大量不可信的数据时,这些数据通常是在安全过滤之前从网络抓取的。

一个现实世界的例子

2025年2月的一个早期现实案例说明了这一风险。研究人员马尔科·菲格罗亚(Marco Figueroa)和解放者普林尼(Pliny the Liberator)记录了一个隐藏在公共GitHub存储库中的越狱提示如何最终出现在DeepSeek DeepThink (R1)模型的训练数据中。

几个月后,该模型重现了这些隐藏的指令,显示即使是一个公共数据集也能在训练期间植入一个有效的后门。该事件反映了Anthropic和图灵团队后来在控制实验中测量到的相同弱点。

与此同时,其他研究人员正在开发所谓的“毒药丸”,如Nightshade工具,旨在通过嵌入微妙的数据毒害代码来破坏未经许可抓取创作作品的人工智能系统,使得生成的模型产生扭曲或无意义的输出。

政策和治理的影响

根据RAND的高级政策分析师凯伦·施温特(Karen Schwindt)的说法,这项研究的重要性足以引发与威胁相关的政策讨论。

“毒害可以在人工智能系统生命周期的多个阶段发生——供应链、数据收集、预处理、训练、微调、重新训练或模型更新、部署和推理,”施温特告诉Decrypt。然而,她指出仍然需要后续研究。

“没有单一的缓解措施能够解决这个问题,”她补充道。“相反,风险缓解最有可能来自于在强有力的风险管理和监督程序下实施的各种分层安全控制的组合。”

加州大学伯克利分校计算机科学教授斯图尔特·拉塞尔(Stuart Russell)表示,这项研究强调了一个更深层次的问题:开发人员仍然没有完全理解他们所构建的系统。

“这又是一个证据,表明开发人员并不理解他们正在创造的东西,并且没有办法提供关于其行为的可靠保证,”拉塞尔告诉Decrypt。“与此同时,Anthropic的首席执行官估计,如果他们成功实现当前创建超智能人工智能系统的目标,人类灭绝的可能性为10-25%,”拉塞尔说。“任何理智的人会接受对每一个活着的人类如此巨大的风险吗?”

该研究集中于简单的后门——主要是导致无意义输出的拒绝服务攻击,以及在小规模实验中测试的语言切换后门。它没有评估更复杂的利用方式,如数据泄露或安全过滤绕过,以及这些后门在现实后训练中的持久性仍然是一个悬而未决的问题。

研究人员表示,尽管许多新模型依赖于合成数据,但那些仍然在公共网络来源上训练的模型仍然容易受到被毒害内容的影响。

“未来的工作应进一步探索不同的策略以防御这些攻击,”他们写道。“防御可以在训练管道的不同阶段设计,例如在训练前进行数据过滤,以及在训练后进行后门检测或引导,以识别不希望的行为。”

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接