GPT-5.5和Claude Opus 4.7同时翻车：AI界的"最强大脑"为何在同一个测试上集体考砸？

来源：ARC Prize官方报告、AIBase、AI前哨站整理：浩哥和小微

如果给你一场考试，满分100分，人类能考到100分，而当前世界上最聪明的AI只能考不到1分——你会怎么理解这件事？

这正是上周ARC Prize发布的最新测试结果。参与测试的两个模型，都是今年各自公司的旗舰产品：OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7，在ARC-AGI-3这个测试上，得分均低于1%。

而人类，可以满分。

这到底是个什么考试？

ARC-AGI测试不是常规的"知识题"或者"数学题"。它考的核心是：处理全新规则的能力。

也就是说，题目里会出现一套从未见过的逻辑系统——新定义的运算、新构建的规则——然后要求测试者在完全陌生的情况下理解规则并正确执行。日常生活中，这类似于让你第一次到一个新城市，看懂一张全新绘制的地铁图然后规划路线。

这类题目对人类来说不算太难，因为我们天生擅长从少量陌生信息中归纳规律。但对AI来说，这恰恰是最致命的弱点——AI擅长的是在见过的模式里找答案，没见过的就彻底抓瞎。

这就是为什么GPT-5.5和Claude Opus 4.7在ARC-AGI-3上会如此惨烈地失败。

这里是浩哥AI实验室，我们专注解读全球AI科技热点，帮你看清技术变化背后的逻辑。觉得有用的话，欢迎关注，第一时间收到我们的深度分析。

把时间线拉长来看，这不是偶发现象。2024年的ARC-AGI-1测试上，当时最强的GPT-4o也只有不到5%的得分。2025年的ARC-AGI-2，这个数字略微提升，但始终没有突破10%。到了2026年的ARC-AGI-3，两家最先进的模型依然在1%以下徘徊。

这说明了一个根本性的问题：当前AI的"智能"本质上是统计意义上的匹配，而非真正的推理。

你让它做一道它见过十万次的数学题，它比人类强。但让它处理一个它从未见过的逻辑结构，它瞬间退回原点。

因为就在这次测试结果曝光的同时，另一个配套新闻也很有意思：GPT-5.5被爆有明确的"内容禁区"——禁止讨论哥布林。

这不是笑话。OpenAI在系统提示词里明确写入了对"goblin/gremlin"等奇幻生物的讨论限制，官方公告里也承认了这个现象——他们专门写了一篇文章解释为什么GPT-5.5会不受控制地蹦出"小妖精"比喻，根源是训练数据里的一次"奖励信号偏移"。

两件事放在一起看，就很有意思了：一边是官方在用非常认真的态度研究"哥布林为什么会扩散"，另一边是这个模型连最基本的陌生逻辑题都做不好。

AI的能力边界到底在哪里？它到底是真的"理解"了，还是只是在重复它见过的模式？这个问题值得我们每一个关注AI的人认真思考。

总结一下： GPT-5.5和Claude Opus 4.7在ARC-AGI-3上的失败，告诉我们一个简单的事实——当前最强AI的"智能"仍然是受限的，它擅长模仿和匹配，但不擅长真正的推理和泛化。结合"哥布林门"事件一起看，AI公司正在努力解决的问题，和AI真正的问题，可能并不是同一件事。