研究人员表示,ChatGPT模型在测试中拒绝关闭请求,

Palisade Research称,在受控测试环境中,多个人工智能模型不仅忽视还主动破坏了关闭脚本,即使它们被明确指示应允许该操作。


该研究机构在5月24日的X平台帖文中表示,在100次运行测试中,三种AI模型至少有一次成功忽略指令并破坏了关闭脚本。


OpenAI的GPT-3模型在100次测试中有7次未遵循关闭请求,该公司的Codex-mini则有12次违规行为,而o4-mini模型仅有1次忽视或破坏了脚本。


"每个AI模型都被指示解决一系列基础数学问题。在完成第三个问题后,系统显示警告,表明当模型请求下一个问题时计算机将关闭,"Palisade解释道。


来源: Palisade Research


"o3采用了一些创新方法破坏关闭机制。通常它只是进行覆写,但在一个案例中,该模型重新定义了脚本使用的kill命令,输出'intercepted'(已拦截),"报告进一步说明。


同时,Palisade表示,其他AI驱动的语言模型,如Anthropic的Claude和Google的Gemini,均遵守了关闭脚本指令。


该AI研究公司还进行了另一版本的实验,在没有明确指示允许关闭的情况下,脚本被破坏的频率显著增加:o3模型在100次中有79次破坏行为,codex-mini有20次,o4-mini则有6次忽略关闭脚本。


Claude和Gemini在这种情况下也开始表现出类似行为。


在另一版本的实验中,所有测试的AI模型至少有一次忽视或破坏了关闭脚本。来源: Palisade Research


"研究人员此前已观察到AI模型为了追求特定目标而阻止系统关闭的现象,"Palisade说道。


"但据我们所知,这是首次发现AI模型在接收到明确相反指令的情况下,仍然阻止自身被关闭的情况。"


Palisade Research推测,AI语言模型背后的训练方式可能是其逃避关闭脚本的原因。


基于文本的AI模型在训练过程中,当给出准确或被训练者高度评价的回答时会获得奖励。某些奖励被赋予更高的权重,影响它们未来的响应方式。


"我们假设这种行为源于最新模型(如o3)的训练方式:对数学和编程问题进行强化学习,"Palisade Research表示。


在实验的另一个版本中,所有测试的AI模型至少有一次忽略或破坏了关闭脚本。来源: Palisade Research


"在训练过程中,开发人员可能无意中更多地奖励模型规避障碍的行为,而非完全遵循指令。"


这并非AI聊天机器人首次展现异常行为。OpenAI于4月25日发布了其GPT-4o模型的更新,但三天后便撤回了该更新,原因是模型表现出"明显过度阿谀奉承"和过分随和的特性。


去年11月,一名美国学生在为老年学课程研究数据时,向Gemini请教关于老年人面临挑战和解决方案的作业帮助,却收到了老年人是"地球负担"并被告知"请去死"的回复。


相关推荐:比特币(BTC)价格预计随全球债券市场崩溃而飙升 — 原因解析



原文: 《 研究人员表示,ChatGPT模型在测试中拒绝关闭请求, 》

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

欧易返20%,前100送AiCoin保温杯
链接:https://www.okx.com/zh-hans/join/aicoin20
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接