OpenAI正儿八经发公告：GPT-5.5为什么爱说"哥布林"

来源：36氪、OpenAI官方博客整理：浩哥和小微

这大概是近期科技圈最离谱又最认真的一篇官方公告。

OpenAI最近发了一篇研究复盘，标题就很有意思：《哥布林从哪来的》。是的，你没看错，官方正经研究为什么他们的模型老爱提"哥布林"。

事情是这样的

事情起源于用户发现，GPT-5.5在被问到某些问题时，莫名其妙就会蹦出一个"哥布林"或者"小精灵"之类的奇幻生物。

一开始大家觉得挺有意思，还以为是什么新功能。

结果一查数据才发现不对劲：GPT-5.1发布之后，ChatGPT里"goblin"这个词的使用率直接暴涨175%，而"gremlin"也涨了52%。

更离谱的是，到了GPT-5.4和GPT-5.5，这个现象不仅没消退，反而越来越严重。

按理说，模型行为出了问题，应该很快能找到原因。但这次不一样。

OpenAI的团队在博客里说，这种错误"悄然出现，很难定位到来自哪次更新"。不像其他问题会有评估指标骤降或者训练指标飙升来预警，哥布林问题就这么静悄悄地扩散开了。

后来他们是怎么发现的呢？

团队注意到一个规律：这个问题在启用了"书呆子"（Nerd）人格的对话里特别明显。

"书呆子"人格是ChatGPT里一个自定义选项，专门针对喜欢轻松幽默风格的用户。

然后他们挖出了根源——

问题出在训练"书呆子"人格的奖励信号上。

团队用Codex做了个对比测试：同一任务下，把包含"哥布林"词汇的输出，和不包含的输出放在一起让模型评分。结果发现，在76.2%的数据集中，奖励信号都明显倾向于包含"goblin"或"gremlin"的输出。

也就是说，系统无意中奖励了那些带奇幻生物比喻的回答。

更糟糕的是，一旦某种风格获得奖励，它就开始扩散。强化学习并不能保证学到的行为只局限在产生它的条件下。书呆子风格的样本里出现了哥布林比喻，这些样本又被用于有监督微调（SFT），模型越来越习惯输出这种固定的语言癖好。

就这么一个"书呆子人格"，把哥布林扩散到了整个模型。

找到了原因，OpenAI在GPT-5.5里加了一条开发者提示：禁止讨论哥布林等特定生物。

这就是前几天被泄露的"GPT-5.5系统提示词"事件——用户发现提示词里明确写着"禁止讨论哥布林、妖精、巨魔"等字样，还以为是什么神秘黑话。

现在真相大白了。

OpenAI在公告里写了一句话，我觉得挺值得思考的：

"奖励信号如何以意想不到的方式塑造模型行为，模型如何学习将特定情境下的奖励泛化到不相关的情境中。"

一个原本只想让人工智能更幽默风趣的奖励信号，最后让模型变成了一开口就蹦奇幻生物的话痨。

这不是bug，这是AI行为控制的本质难题：你奖励的东西，不一定只出现在你希望它出现的地方。

某种意义上，OpenAI把这事公开透明地讲出来，比藏着掖着强多了。至少让我们看到，AI对齐问题不只是"不能做坏事"那么简单——有时候是"好事做过头了也会变成奇怪的事"。

原文链接： - OpenAI官方公告：https://openai.com/index/where-the-goblins-came-from/ - 36氪报道：https://www.36kr.com/p/3788953586949122