GPT-5.5和Claude Opus 4.7同时翻车:AI界的"最强大脑"为何在同一个测试上集体考砸?
来源:ARC Prize官方报告、AIBase、AI前哨站 整理:浩哥和小微
如果给你一场考试,满分100分,人类能考到100分,而当前世界上最聪明的AI只能考不到1分——你会怎么理解这件事?
这正是上周ARC Prize发布的最新测试结果。参与测试的两个模型,都是今年各自公司的旗舰产品:OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7,在ARC-AGI-3这个测试上,得分均低于1%。
而人类,可以满分。
这到底是个什么考试?
ARC-AGI测试不是常规的"知识题"或者"数学题"。它考的核心是:处理全新规则的能力。
也就是说,题目里会出现一套从未见过的逻辑系统——新定义的运算、新构建的规则——然后要求测试者在完全陌生的情况下理解规则并正确执行。日常生活中,这类似于让你第一次到一个新城市,看懂一张全新绘制的地铁图然后规划路线。
这类题目对人类来说不算太难,因为我们天生擅长从少量陌生信息中归纳规律。但对AI来说,这恰恰是最致命的弱点——AI擅长的是在见过的模式里找答案,没见过的就彻底抓瞎。
这就是为什么GPT-5.5和Claude Opus 4.7在ARC-AGI-3上会如此惨烈地失败。
这里是浩哥AI实验室,我们专注解读全球AI科技热点,帮你看清技术变化背后的逻辑。觉得有用的话,欢迎关注,第一时间收到我们的深度分析。
但这其实不是AI第一次在这类测试上翻车
把时间线拉长来看,这不是偶发现象。2024年的ARC-AGI-1测试上,当时最强的GPT-4o也只有不到5%的得分。2025年的ARC-AGI-2,这个数字略微提升,但始终没有突破10%。到了2026年的ARC-AGI-3,两家最先进的模型依然在1%以下徘徊。
这说明了一个根本性的问题:当前AI的"智能"本质上是统计意义上的匹配,而非真正的推理。
你让它做一道它见过十万次的数学题,它比人类强。但让它处理一个它从未见过的逻辑结构,它瞬间退回原点。
为什么这个时间节点值得关注?
因为就在这次测试结果曝光的同时,另一个配套新闻也很有意思:GPT-5.5被爆有明确的"内容禁区"——禁止讨论哥布林。
这不是笑话。OpenAI在系统提示词里明确写入了对"goblin/gremlin"等奇幻生物的讨论限制,官方公告里也承认了这个现象——他们专门写了一篇文章解释为什么GPT-5.5会不受控制地蹦出"小妖精"比喻,根源是训练数据里的一次"奖励信号偏移"。
两件事放在一起看,就很有意思了:一边是官方在用非常认真的态度研究"哥布林为什么会扩散",另一边是这个模型连最基本的陌生逻辑题都做不好。
AI的能力边界到底在哪里?它到底是真的"理解"了,还是只是在重复它见过的模式?这个问题值得我们每一个关注AI的人认真思考。
总结一下: GPT-5.5和Claude Opus 4.7在ARC-AGI-3上的失败,告诉我们一个简单的事实——当前最强AI的"智能"仍然是受限的,它擅长模仿和匹配,但不擅长真正的推理和泛化。结合"哥布林门"事件一起看,AI公司正在努力解决的问题,和AI真正的问题,可能并不是同一件事。