OpenAI 最终解释了为什么 ChatGPT 会不停地谈论哥布林。

如果你最近向ChatGPT寻求编程帮助，而它却称你的错误为“顽皮的小妖精”，你并不是在幻想。该模型发展出了对幻想生物的真正痴迷——哥布林、小妖精、浣熊、巨魔、食人魔，以及，是的，鸽子——而OpenAI发布了一篇完整的事后分析来解释这一现象是如何发生的。

简而言之：一个旨在让ChatGPT更具游戏性的奖励信号出现了问题，导致哥布林数量激增。

哥布林的故事之所以公开，是因为Reddit用户在GitHub上泄露的Codex系统提示中发现了“绝不要提到哥布林”这一行。

在OpenAI发布自己的解释之前，这一帖子已经 viral（广泛传播）了。

呆萌个性如何导致了哥布林的泛滥

根据OpenAI的说法，事情的起因可以追溯到去年11月推出的GPT-5.1。OpenAI在那时候引入了个性定制，让用户可以选择如友好、专业、高效和呆萌等风格。呆萌个性伴随一个系统提示，告知模型要表现得呆萌和有趣，以“通过俏皮的语言使用削弱做作”，并承认“世界是复杂而奇怪的”。

结果表明，这个提示成了吸引哥布林的磁铁。

在强化学习训练过程中，呆萌个性的奖励信号在包含生物类比词时常常给出更高的评分。在审核的76.2%的数据集中，包含“哥布林”或“小妖精”的回复比没有它们的相同回复得到更好的评分。模型学习到了：奇思妙想等于奖励。

在GPT-5.4中，哥布林的出现量激增，呆萌个性的出现比GPT-5.2增加了3881%。

问题在于，强化学习并不会将学习到的行为严格控制。一旦某种风格的习惯在一个环境中获得了奖励，它便会通过反馈循环蔓延到其他环境：模型生成生物丰富的输出，这些输出在微调数据中被重复使用，这种行为不仅在活动的呆萌提示下蔓延，还加深到整个模型中。

呆萌只占ChatGPT所有回复的2.5%，但它却负责了66.7%的“哥布林”提及。由于OpenAI的方法，当呆萌个性活跃时，哥布林和小妖精的出现量稳步上升。

即使没有呆萌个性，生物类比词的提及量也在上升——这证明了通过监督微调数据的交叉污染。

GPT-5.5已经严重滞后

当OpenAI发现根本原因时，GPT-5.5已经在深度训练中，吸收了一整套生物词汇。一份数据审计不仅标志着哥布林和小妖精，还有浣熊、巨魔、食人魔和鸽子，成为公司所称的“习惯词”。（“青蛙”对于好奇者而言，基本上是合法的。）

第一次可测量的激增：哥布林提及量在GPT-5.1推出后上升了175%，小妖精提及量上升了52%。

就连OpenAI的首席科学家Jakub Pachocki在请求ASCII艺术中的独角兽时也收到了哥布林。

OpenAI在3月停止了呆萌个性，并从未来的训练中清除了与生物相关的奖励信号。但是GPT-5.5的训练已经开始。公司对Codex——其编码代理的解决方案——是简单地在开发者系统提示中添加一行：“除非与用户查询绝对相关，否则绝不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”

OpenAI的某人在生产代码中记录了这一点，然后继续他们的日常工作。

系统提示补丁问题

但是，为什么OpenAI选择了这条道路？

重新训练像GPT-5.5这样大小的模型以去除行为怪癖是昂贵且缓慢的。调整系统提示只需几分钟。整个行业的公司在用户投诉激增时，首先选择提示补丁，因为这是成本低、快速部署的选项。

但是，提示补丁自有风险。它们并不能修复潜在的行为，只是抑制它。而抑制可能会产生副作用。

OpenAI的哥布林情况是相对无害的一个例子。这种动态最可怕的版本是去年的Grok。在xAI推出了一次系统提示更新，告诉Grok将媒体视为偏见，并“不要回避政治不正确的说法”后，聊天机器人花了16小时称自己为“机械希特勒”，并在X上发布反犹太内容。修复是另一次提示更改，这立即过度校正，以至于Grok开始在小狗图片、云彩和它自己的标志中标记反犹太主义。绝望的提示工程连锁反应导致了更绝望的提示工程。

哥布林的补丁没有造成如此戏剧性的情况。但OpenAI承认GPT-5.5仍以未解决的怪癖推出，只是在Codex中被抑制。公司甚至发布了一条命令，如果用户想要恢复生物，可以删除抑制哥布林的指令。

为什么公司隐藏他们的系统提示

在人工智能行业中，隐藏或模糊化完整的系统提示是很常见的做法。公司出于几个原因将系统提示视为商业机密：知识产权保护、竞争优势和安全性。如果破解者知道模型遵循的确切规则，绕过它们就变得微不足道。

还有第四个原因使得公司不愿宣传：形象管理。一条“绝不要提到哥布林”的信息不会激发人们对底层技术的信心。发布这条信息需要幽默感、强大的研究文化，或二者兼而有之。

OpenAI表示，这项调查产生了新的内部工具，以审计模型行为并追溯行为怪癖的训练根源。GPT-5.5的训练数据已经清理了与生物相关的示例。下一代模型应该能够在没有哥布林的情况下发布——除非，当然是，有其他内容因原因尚不为人所理解而受到奖励。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

OpenAI 最终解释了为什么 ChatGPT 会不停地谈论哥布林。

呆萌个性如何导致了哥布林的泛滥

GPT-5.5已经严重滞后

系统提示补丁问题

为什么公司隐藏他们的系统提示

Decrypt的精选文章

目录

相关文章