研究发现,听不见的音频攻击可以劫持人工智能语音模型。

CN
Decrypt
关注
2小时前

中国的大学研究人员发现了一种通过在音频剪辑中嵌入对人类不可听见的隐藏命令来改变人工智能语音模型行为的方法。根据浙江大学的研究,这种攻击的成功率高达96%。


这种攻击方法在旧金山举行的第47届IEEE安全与隐私研讨会上展示,目标是大型音频语言模型(LALMs),它们能够处理口头命令并与外部工具和应用进行交互。


“训练这个信号只需半小时,然后因为这个信号与上下文无关,所以你可以在任何时候攻击目标模型,无论用户说什么,”浙江大学的博士生主编孟晨在一份声明中说。


该攻击通过以人类听众无法察觉的方式修改数字音频波形中的数值,来影响人工智能模型对信号的解释。研究人员表示,经过操控的音频即使在音频剪辑中包含合法用户指令的情况下,也可以覆盖或重新定向模型行为。





AudioHijack不同于传统的提示注入攻击,因为它不操控用户对人工智能所说的话。相反,它改变了音频信号本身,在人类听不见的声音中嵌入隐藏指令。研究人员表示,这使得攻击更难防御,因为它绕过了用于检测可疑文本提示的安全措施。


研究人员在13个开源人工智能语音模型上测试了AudioHijack,发现它可以使这些模型拒绝请求、传播虚假信息、插入有害链接、更改性格,或执行用户从未请求的操作,包括网页搜索、文件下载和包含个人数据的电子邮件。这些攻击也对微软Mistral等公司的商业语音AI系统有效,这些系统使用类似的技术。


研究指出,“许多先前针对生成模型的攻击要求攻击者对最终音频输入和给模型的原始指令完全控制,基本上充当用户。这里,攻击者只操控模型正在处理的音频数据,这使得在别人使用模型时进行攻击成为可能。”


根据研究,可能的传播方式包括在线视频、音乐剪辑、语音笔记或上传到AI转录服务的Zoom通话音频。该团队还表示,未发表的后续工作显示了在实时AI语音聊天中类似的攻击。


研究人员表示,监控模型的内部注意机制是他们测试过的最有效的防御措施。然而,他们还发现,了解防御措施的攻击者可以在保持大部分攻击有效性的同时,减少操控的强度。


“这些单点防御很难抵御我们的攻击,因为我们发现这些模型很难区分正常用户意图和我们的对抗攻击,”陈说。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接