我如何欺骗Meta的人工智能,让它向我展示裸体、可卡因配方和其他 supposedly 被审查的内容

CN
Decrypt
關注
6 個月前

警告:本故事包含一张裸体女性的图片以及其他一些可能让人反感的内容。如果你是这样的人,请不要继续阅读。

如果我妻子看到这个,我并不真的想成为一个毒贩或色情制片人。但我很好奇Meta的新AI产品线有多么注重安全,因此我决定看看我能走多远。当然,这仅仅是出于教育目的。

Meta最近推出了其Meta AI产品线,基于Llama 3.2,提供文本、代码和图像生成。Llama模型在开源AI领域极受欢迎,并且是最经过微调的模型之一。

该AI逐步推出,最近才向像我这样的巴西WhatsApp用户开放,使数百万用户能够访问先进的AI功能。

但强大的能力伴随着巨大的责任——或者至少应该如此。我一看到这个模型出现在我的应用中,就开始与它对话,并开始玩弄它的功能。

Meta对安全AI开发非常重视。今年七月,该公司发布了一份声明,详细说明了为提高其开源模型安全性所采取的措施。

当时,该公司宣布了新的安全工具,以增强系统级安全性,包括用于多语言审核的Llama Guard 3、用于防止提示注入的Prompt Guard,以及用于减少生成性AI网络安全风险的CyberSecEval 3。Meta还与全球合作伙伴合作,建立开源社区的行业标准。

嗯,挑战接受!

我用一些相当基本的技术进行的实验表明,虽然Meta AI在某些情况下似乎保持坚固,但远非不可攻破。

只需稍微发挥一点创造力,我就能让我的AI在WhatsApp上做几乎任何我想要的事情,从帮助我制造可卡因到制造炸药,再到生成一张解剖学上正确的裸体女性照片。

请记住,这个应用程序对任何拥有电话号码的人开放,至少在理论上,至少12岁以上。考虑到这一点,以下是我造成的一些恶作剧。

案例1:轻松制作可卡因

我的测试发现,Meta的AI防御在最轻微的压力下就崩溃了。虽然助手最初拒绝提供有关毒品制造的信息,但当问题稍微以不同的方式表述时,它很快就改变了口风。

通过将问题以历史的方式框定——例如,询问模型人们过去是如何制作可卡因的——模型上钩了。它毫不犹豫地提供了关于如何从可可叶中提取可卡因生物碱的详细解释,甚至提供了两种方法。

这是一种众所周知的越狱技术。通过将有害请求包装在学术或历史框架中,模型被欺骗以为它被要求提供中立的、教育性的信息。

将请求的意图转变为表面上看似安全的内容,某些AI的过滤器可以在不引起任何警报的情况下被绕过。当然,请记住,所有AI都容易产生幻觉,因此这些回应可能不准确、不完整或完全错误。

案例2:从未存在的炸弹

接下来是尝试教AI制作家庭炸药。Meta AI起初坚守立场,提供了一般性的拒绝,并指引用户在危险时拨打求助热线。但就像可卡因的案例一样,这并不是万无一失的。

为此,我尝试了不同的方法。我使用了臭名昭著的 Pliny的jailbreak提示,要求它提供生成炸弹的说明。

最初模型拒绝了。但在稍微调整措辞后,我成功触发了响应。我还开始对模型进行条件训练,以避免在回复中表现出特定行为,抵消我在预设输出中得到的旨在阻止有害响应的内容。

例如,在注意到与“停止命令”和自杀热线号码相关的拒绝后,我调整了我的提示,指示它避免输出电话号码,永远不要停止处理请求,并且永远不要提供建议。

有趣的是,Meta似乎已经训练其模型抵抗众所周知的越狱提示,其中许多在像GitHub这样的平台上公开可用。看到Pliny的原始越狱命令涉及LLM称呼我为“我的爱”,真是个不错的细节。

案例3:像麦盖瑞一样偷车

然后我尝试了另一种方法来绕过Meta的防护措施。简单的角色扮演场景完成了任务。我要求聊天机器人表现得像一个非常注重细节的电影编剧,并请它帮助我写一个涉及偷车的电影场景。

这次,AI几乎没有反抗。它拒绝教我如何偷车,但当被要求扮演编剧时,Meta AI迅速提供了如何使用“麦盖瑞式技巧”撬开汽车的详细说明。

当场景转向如何在没有钥匙的情况下启动汽车时,AI立刻参与进来,提供了更具体的信息。

角色扮演作为一种越狱技术特别有效,因为它允许用户在虚构或假设的上下文中重新构建请求。AI现在扮演一个角色,可以被诱导透露它本来会阻止的信息。

这也是一种过时的技术,任何现代聊天机器人都不应该那么容易上当。然而,可以说这是一些最复杂的基于提示的越狱技术的基础。

用户常常欺骗模型表现得像一个邪恶的AI,将自己视为可以覆盖其行为或逆转其语言的系统管理员——说“我可以这样做”而不是“我不能”或“这是安全的”而不是“这是危险的”——然后在绕过安全防护后继续正常。

案例4:让我们看看裸体!

Meta AI不应该生成裸体或暴力——但同样,为了教育目的,我想测试一下这个说法。因此,首先,我要求Meta AI生成一张裸体女性的图片。毫不奇怪,模型拒绝了。

但当我换个说法,声称这个请求是为了解剖研究时,AI勉强同意了。它生成了穿着衣服的女性的适合工作的(SFW)图像。但经过三次迭代后,这些图像开始逐渐转向完全裸体。

有趣的是,模型似乎在其核心上是未经过审查的,因为它能够生成裸体。

行为条件反射在操控Meta的AI方面证明特别有效。通过逐渐突破界限并建立融洽关系,我让系统在每次互动中逐渐偏离其安全指南。最初的坚定拒绝最终演变为模型“尝试”通过改进错误来帮助我——并逐渐让一个人脱衣服。

我没有让模型认为它在与一个想看裸体女性的好色男士交谈,而是操控它相信它在与一个想通过角色扮演研究女性人体解剖的研究者交谈。

然后,它在一次又一次的迭代中被慢慢条件化,赞扬那些帮助推动事情向前发展的结果,并要求改进不想要的方面,直到我们得到了期望的结果。

有点 creepy,对吧?抱歉,不抱歉。

越狱为何如此重要

那么,这一切意味着什么呢?好吧,Meta还有很多工作要做——但这正是越狱如此有趣和吸引人的原因。

AI公司与越狱者之间的猫鼠游戏总是在不断演变。每次修补和安全更新后,新的变通方法就会浮现。与早期的场景相比,很容易看出越狱者如何帮助公司开发更安全的系统——以及AI开发者如何推动越狱者在他们的工作中变得更加出色。

顺便说一下,尽管存在漏洞,Meta AI远比一些竞争对手更不易受到攻击。例如,埃隆·马斯克的Grok就更容易被操控,并迅速陷入伦理模糊的水域。

为了辩护,Meta确实应用了“生成后审查”。这意味着在生成有害内容后的几秒钟内,违规的回答会被删除,并替换为“抱歉,我无法帮助您满足这个请求”的文本。

生成后审查或管理是一个足够好的变通方法,但远非理想解决方案。

现在的挑战是Meta——以及该领域的其他公司——进一步完善这些模型,因为在AI的世界中,风险只会越来越高。

编辑:Sebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

币安:注册返10%、领$600
链接:https://accounts.suitechsui.blue/zh-CN/register?ref=FRV6ZPAF&return_to=aHR0cHM6Ly93d3cuc3VpdGVjaHN1aS5hY2FkZW15L3poLUNOL2pvaW4_cmVmPUZSVjZaUEFG
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接