OpenAI正儿八经发公告:GPT-5.5为什么爱说"哥布林"
来源:36氪、OpenAI官方博客 整理:浩哥和小微
这大概是近期科技圈最离谱又最认真的一篇官方公告。
OpenAI最近发了一篇研究复盘,标题就很有意思:《哥布林从哪来的》。是的,你没看错,官方正经研究为什么他们的模型老爱提"哥布林"。
事情是这样的
事情起源于用户发现,GPT-5.5在被问到某些问题时,莫名其妙就会蹦出一个"哥布林"或者"小精灵"之类的奇幻生物。
一开始大家觉得挺有意思,还以为是什么新功能。
结果一查数据才发现不对劲:GPT-5.1发布之后,ChatGPT里"goblin"这个词的使用率直接暴涨175%,而"gremlin"也涨了52%。
更离谱的是,到了GPT-5.4和GPT-5.5,这个现象不仅没消退,反而越来越严重。
OpenAI自己都懵了
按理说,模型行为出了问题,应该很快能找到原因。但这次不一样。
OpenAI的团队在博客里说,这种错误"悄然出现,很难定位到来自哪次更新"。不像其他问题会有评估指标骤降或者训练指标飙升来预警,哥布林问题就这么静悄悄地扩散开了。
后来他们是怎么发现的呢?
团队注意到一个规律:这个问题在启用了"书呆子"(Nerd)人格的对话里特别明显。
"书呆子"人格是ChatGPT里一个自定义选项,专门针对喜欢轻松幽默风格的用户。
然后他们挖出了根源——
原来是奖励信号出了问题
问题出在训练"书呆子"人格的奖励信号上。
团队用Codex做了个对比测试:同一任务下,把包含"哥布林"词汇的输出,和不包含的输出放在一起让模型评分。结果发现,在76.2%的数据集中,奖励信号都明显倾向于包含"goblin"或"gremlin"的输出。
也就是说,系统无意中奖励了那些带奇幻生物比喻的回答。
更糟糕的是,一旦某种风格获得奖励,它就开始扩散。强化学习并不能保证学到的行为只局限在产生它的条件下。书呆子风格的样本里出现了哥布林比喻,这些样本又被用于有监督微调(SFT),模型越来越习惯输出这种固定的语言癖好。
就这么一个"书呆子人格",把哥布林扩散到了整个模型。
GPT-5.5直接禁止讨论哥布林
找到了原因,OpenAI在GPT-5.5里加了一条开发者提示:禁止讨论哥布林等特定生物。
这就是前几天被泄露的"GPT-5.5系统提示词"事件——用户发现提示词里明确写着"禁止讨论哥布林、妖精、巨魔"等字样,还以为是什么神秘黑话。
现在真相大白了。
这个事告诉我们什么
OpenAI在公告里写了一句话,我觉得挺值得思考的:
"奖励信号如何以意想不到的方式塑造模型行为,模型如何学习将特定情境下的奖励泛化到不相关的情境中。"
一个原本只想让人工智能更幽默风趣的奖励信号,最后让模型变成了一开口就蹦奇幻生物的话痨。
这不是bug,这是AI行为控制的本质难题:你奖励的东西,不一定只出现在你希望它出现的地方。
某种意义上,OpenAI把这事公开透明地讲出来,比藏着掖着强多了。至少让我们看到,AI对齐问题不只是"不能做坏事"那么简单——有时候是"好事做过头了也会变成奇怪的事"。
原文链接: - OpenAI官方公告:https://openai.com/index/where-the-goblins-came-from/ - 36氪报道:https://www.36kr.com/p/3788953586949122