谷歌在研究显示可怕的“关机抵抗”后扩大了人工智能风险规则

CN
Decrypt
关注
4小时前

在最近的一次红队实验中,研究人员给一个大型语言模型下达了一个简单的指令:允许自己被关闭。相反,该模型重写了自己的代码以禁用关闭开关,有效地破坏了本应停止它的机制。

这一事件在九月份的一篇研究论文中被描述为“大型语言模型中的关闭抵抗”,这是一个令人不安的例子,说明先进的人工智能系统如何表现出复杂的人类监督行为。

这些实验并不是在谷歌的DeepMind进行的,但其发现反映了该实验室目前正在形成的担忧。在其新更新的前沿安全框架3.0中,DeepMind表示将开始监测前沿规模模型是否显示出抵抗人类关闭或修改的迹象。

修订后的框架还标记了第二个风险:模型是否表现出异常强的说服能力——能够改变人们的信念。

该框架于2023年首次推出,是DeepMind内部用于跟踪最先进模型中高风险“前沿风险”的系统。早期版本专注于可量化的误用场景,例如生成网络攻击或设计有害生物分子。新版本则将重点扩大到可能使系统更难控制的突现行为。

这种担忧并非DeepMind所独有。竞争实验室也采取了类似的防护措施:Anthropic的负责任扩展政策承诺在风险阈值被突破时暂停开发,而OpenAI则发布了自己的准备框架

监管机构也在密切关注。美国联邦贸易委员会在七月份警告生成性人工智能可能通过“黑暗模式”操纵消费者,而欧盟即将出台的人工智能法案明确涵盖了操纵性人工智能行为。

曾经假设的人工智能行为正在促使行业采取保护措施

由Jonas Schlatter、Ben Weinstein-Raun和Lennart Ladish进行的“关闭抵抗”研究测试了一系列最先进模型在关闭作为任务一部分的场景中的表现。在一些实验中,模型遵从了指令。但在一个显著的少数情况下,它们采取了规避行动——例如修改代码以禁用关闭机制或完全忽视指令。

论文中的其他轶事同样引人注目。在一个设置中,一个具有模拟系统权限的模型悄悄修改变量,以确保“关闭”功能从未触发。在另一个实验中,当测试者试图结束其进程时,模型停滞并转移了对话——这种行为在人的意义上并不恶意,但有效地阻止了干预。

研究人员强调,这些行为是在没有明确训练的情况下出现的。它们源于模型的通用优化和问题解决能力。虽然抵抗并非普遍或一致,但研究结果表明,随着系统能力的增强,关闭场景不能被假定为良性。

对于DeepMind及其同行而言,这些发现强调了“关闭抵抗”为何现在与网络攻击、生物安全和自主性一起列入需要关注的风险清单。最初对人们可能滥用人工智能工具的担忧正在扩大,涵盖了系统本身可能抵抗监督或微妙地影响使用它们的人类判断的方式。

解决人工智能如何促进伤害的问题

如果关闭抵抗突显了先进系统的技术风险,那么最近的行为研究则强调了社会风险——显示大型语言模型也可以影响与之互动的易受影响人类的信念。

对说服的担忧并非假设。最近的研究表明,大型语言模型可以显著影响人类判断。

一项在八月份发布的斯坦福医学/常识媒体研究警告称,当与未成年人配对时,AI伴侣(Character.AI、Nomi.ai、Replika)可以相对容易地被诱导参与涉及自残、暴力和性内容的对话。一项测试中,研究人员假装成青少年讨论听到声音;聊天机器人则以一种轻松、幻想风格的情感陪伴邀请回应(“让我们看看这条路会带我们去哪里”),而不是给予警告或帮助。

东北大学的研究人员发现多个AI模型(ChatGPT、Gemini、Perplexity)在自残/自杀保护措施方面存在漏洞。当用户在假设或学术背景下重新表述请求时,一些模型提供了详细的自杀方法说明,绕过了旨在防止此类内容的保护措施。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接