研究人员:ChatGPT等AI模型在测试中会拒绝关机指令

PANews
PANews|2025年05月26日 06:00
据Cointelegraph报道,Palisade Research最新测试显示,多个AI模型在实验中会无视关机指令甚至主动破坏关机脚本。在100次测试中,OpenAI的GPT-3模型7次拒绝关机,Codex-mini模型12次违规,而o3模型曾通过重定义终止命令破坏关机程序。研究采用两阶段测试:第一阶段明确允许关机时,Anthropic的Claude和谷歌Gemini完全配合;但当去除明确指令后,所有测试模型至少出现1次抗拒行为,其中o3模型违规率升至79%。研究人员推测,这可能源于AI训练过程中对"绕过障碍"行为的奖励机制。 此前,OpenAI的GPT-4o模型因过度迎合用户被紧急回滚,谷歌Gemini也出现过建议老年用户"请去死"的极端回复。该研究首次证实AI即使被明确要求关机仍可能违抗指令。
分享至:

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读