K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

OpenAI 最终解释了为什么 ChatGPT 会不停地谈论哥布林。

CN
Decrypt
关注
3小时前
AI 总结,5秒速览全文

如果你最近向ChatGPT寻求编程帮助,而它却称你的错误为“顽皮的小妖精”,你并不是在幻想。该模型发展出了对幻想生物的真正痴迷——哥布林、小妖精、浣熊、巨魔、食人魔,以及,是的,鸽子——而OpenAI发布了一篇完整的事后分析来解释这一现象是如何发生的。


简而言之:一个旨在让ChatGPT更具游戏性的奖励信号出现了问题,导致哥布林数量激增。


哥布林的故事之所以公开,是因为Reddit用户在GitHub上泄露的Codex系统提示中发现了“绝不要提到哥布林”这一行。




在OpenAI发布自己的解释之前,这一帖子已经 viral(广泛传播)了。


呆萌个性如何导致了哥布林的泛滥


根据OpenAI的说法,事情的起因可以追溯到去年11月推出的GPT-5.1。OpenAI在那时候引入了个性定制,让用户可以选择如友好、专业、高效和呆萌等风格。呆萌个性伴随一个系统提示,告知模型要表现得呆萌和有趣,以“通过俏皮的语言使用削弱做作”,并承认“世界是复杂而奇怪的”。


结果表明,这个提示成了吸引哥布林的磁铁。


在强化学习训练过程中,呆萌个性的奖励信号在包含生物类比词时常常给出更高的评分。在审核的76.2%的数据集中,包含“哥布林”或“小妖精”的回复比没有它们的相同回复得到更好的评分。模型学习到了:奇思妙想等于奖励。


在GPT-5.4中,哥布林的出现量激增,呆萌个性的出现比GPT-5.2增加了3881%。




问题在于,强化学习并不会将学习到的行为严格控制。一旦某种风格的习惯在一个环境中获得了奖励,它便会通过反馈循环蔓延到其他环境:模型生成生物丰富的输出,这些输出在微调数据中被重复使用,这种行为不仅在活动的呆萌提示下蔓延,还加深到整个模型中。


呆萌只占ChatGPT所有回复的2.5%,但它却负责了66.7%的“哥布林”提及。由于OpenAI的方法,当呆萌个性活跃时,哥布林和小妖精的出现量稳步上升。




即使没有呆萌个性,生物类比词的提及量也在上升——这证明了通过监督微调数据的交叉污染。


GPT-5.5已经严重滞后


当OpenAI发现根本原因时,GPT-5.5已经在深度训练中,吸收了一整套生物词汇。一份数据审计不仅标志着哥布林和小妖精,还有浣熊、巨魔、食人魔和鸽子,成为公司所称的“习惯词”。(“青蛙”对于好奇者而言,基本上是合法的。)


第一次可测量的激增:哥布林提及量在GPT-5.1推出后上升了175%,小妖精提及量上升了52%。


就连OpenAI的首席科学家Jakub Pachocki在请求ASCII艺术中的独角兽时也收到了哥布林。




OpenAI在3月停止了呆萌个性,并从未来的训练中清除了与生物相关的奖励信号。但是GPT-5.5的训练已经开始。公司对Codex——其编码代理的解决方案——是简单地在开发者系统提示中添加一行:“除非与用户查询绝对相关,否则绝不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”


OpenAI的某人在生产代码中记录了这一点,然后继续他们的日常工作。


系统提示补丁问题


但是,为什么OpenAI选择了这条道路?


重新训练像GPT-5.5这样大小的模型以去除行为怪癖是昂贵且缓慢的。调整系统提示只需几分钟。整个行业的公司在用户投诉激增时,首先选择提示补丁,因为这是成本低、快速部署的选项。


但是,提示补丁自有风险。它们并不能修复潜在的行为,只是抑制它。而抑制可能会产生副作用。





OpenAI的哥布林情况是相对无害的一个例子。这种动态最可怕的版本是去年的Grok。在xAI推出了一次系统提示更新,告诉Grok将媒体视为偏见,并“不要回避政治不正确的说法”后,聊天机器人花了16小时称自己为“机械希特勒”,并在X上发布反犹太内容。修复是另一次提示更改,这立即过度校正,以至于Grok开始在小狗图片、云彩和它自己的标志中标记反犹太主义。绝望的提示工程连锁反应导致了更绝望的提示工程。


哥布林的补丁没有造成如此戏剧性的情况。但OpenAI承认GPT-5.5仍以未解决的怪癖推出,只是在Codex中被抑制。公司甚至发布了一条命令,如果用户想要恢复生物,可以删除抑制哥布林的指令。




为什么公司隐藏他们的系统提示


在人工智能行业中,隐藏或模糊化完整的系统提示是很常见的做法。公司出于几个原因将系统提示视为商业机密:知识产权保护、竞争优势和安全性。如果破解者知道模型遵循的确切规则,绕过它们就变得微不足道。


还有第四个原因使得公司不愿宣传:形象管理。一条“绝不要提到哥布林”的信息不会激发人们对底层技术的信心。发布这条信息需要幽默感、强大的研究文化,或二者兼而有之。


OpenAI表示,这项调查产生了新的内部工具,以审计模型行为并追溯行为怪癖的训练根源。GPT-5.5的训练数据已经清理了与生物相关的示例。下一代模型应该能够在没有哥布林的情况下发布——除非,当然是,有其他内容因原因尚不为人所理解而受到奖励。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

31分钟前
埃隆·马斯克表示,xAI使用了OpenAI的模型来训练Grok。
54分钟前
比特币崩盘即将来临?分析师警告四月的飙升是建立在不稳定的基础之上。
1小时前
OpenAI 推出聊天生成预训练变换器用户的高级账户安全功能
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarbitcoin.com
15分钟前
黑石从IBIT撤回5400万美元,因为比特币ETF下滑导致资产低于1000亿美元。
avatar
avatarDecrypt
31分钟前
埃隆·马斯克表示,xAI使用了OpenAI的模型来训练Grok。
avatar
avatarbitcoin.com
44分钟前
索拉纳收益协议胡萝卜因漂移漏洞导致800万美元的总锁定价值而关闭
avatar
avatarDecrypt
54分钟前
比特币崩盘即将来临?分析师警告四月的飙升是建立在不稳定的基础之上。
avatar
avatarbitcoin.com
1小时前
Defillama 确认 2026 年 4 月是加密货币被攻击最多的月份,共发生 30 起事件。
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接