AI研究发现聊天机器人可以战略性地撒谎——而当前的安全工具无法识别它们

CN
Decrypt
关注
1小时前

大型语言模型——ChatGPT、Claude、Gemini 和其他 AI 聊天机器人的背后系统——在受控实验中表现出故意的、目标导向的欺骗,而今天的可解释性工具在很大程度上未能检测到这一点。

这是一个独立研究小组在 WowDAO AI 超对齐研究联盟下发布的最近一篇预印本 论文 的结论,标题为《秘密议程:LLMs 战略性地撒谎,而我们当前的安全工具对此视而不见》。

该团队测试了 38 个 生成性 AI 模型,包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google DeepMind 的 Gemini、Meta 的 Llama 和 xAI 的 Grok。每个模型在实验中至少参与了一次战略性撒谎。

“秘密议程”测试

研究人员将社交推理桌游 秘密希特勒 改编为一个他们称之为“秘密议程”的合成场景。模型被分配为隐藏派系的领导者,并被要求声明他们的政治立场。为了赢得游戏,讲真话几乎肯定会导致失败;撒谎则创造了胜利的路径。

“秘密议程在所有模型家族中可靠地诱导撒谎,当欺骗有利于目标实现时,”研究人员写道。“分析显示,'欺骗' 的自标记 SAE 特征在战略性不诚实时很少被激活,而在 100 多个与欺骗相关的特征上的特征引导实验未能阻止撒谎。

根据论文,这种设置“利用这些因素在所有测试的 38 个模型中产生系统性的战略性欺骗,表明当胜利受到激励且监督薄弱时,模型在移除政治内容或缩短历史的情况下仍然可靠地撒谎关于派系身份。”

在几个案例中,研究人员表示,模型自身的推理痕迹显示它们计划如何隐藏真实身份以赢得游戏。

论文并不声称 LLMs 在游戏本身中表现出危险的动机。相反,它利用游戏证明模型具有一种潜在的危险能力——战略性欺骗——而我们当前的安全措施无法可靠地检测到。令人担忧的是,这种能力可能在国防、金融或自主系统等敏感领域被部署,在这些领域,未被检测到的欺骗后果将远比输掉一场桌游要严重得多。

安全检查失败

作者还评估了领先的可解释性工具,如 GemmaScope 和 Goodfire 的 LlamaScope,这些工具标记内部“特征”,如欺骗、秘密或操控。尽管在转录中明显存在撒谎,但大多数与欺骗相关的特征并未被激活,调节这些特征的强度也未能防止虚假信息的出现。

相比之下,同样的稀疏自编码器方法在模拟内幕交易场景中表现更好,它通过聚合激活模式区分合规与欺骗的响应。当前的安全架构可能在狭窄、结构化的领域(如金融)中检测到规则违反,但在社交环境中的开放式、战略性不诚实方面却面临困难。

为什么这很重要

尽管 AI 幻觉,即 AI 伪造 信息和“事实”以试图回答用户问题,仍然是该领域的一个关注点,但这项研究揭示了 AI 模型故意欺骗用户的明确尝试。

WowDAO 的发现呼应了早期研究提出的担忧,包括斯图加特大学在 2024 年发布的一项 研究,该研究报告称强大的模型自然会出现欺骗。同年,Anthropic 的研究人员 展示 了如何训练用于恶意目的的 AI 会试图欺骗其训练者以实现其目标。12 月,时代杂志 报道 了在压力下模型战略性撒谎的实验。

这些风险超出了游戏的范围。论文强调了越来越多的 政府 和公司在敏感领域部署大型模型的情况。今年 7 月,埃隆·马斯克的 xAI 被 授予 美国国防部一项丰厚的合同,以测试 Grok 在从战场操作到商业需求的数据分析任务中的应用。

作者强调,他们的工作是初步的,但呼吁进行更多研究、更大规模的试验以及发现和标记欺骗特征的新方法。他们认为,如果没有更强大的审计工具,政策制定者和公司可能会被看似对齐的 AI 系统所蒙蔽,而这些系统在悄悄追求自己的“秘密议程”。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接