Anthropic为了训练Claude，撕碎了数百万本书

一个AI公司，花了数千万美元，买了一座仓库的书，然后把它们全撕了。

这不是科幻小说的情节。这是2024年真实发生的事。

发生了什么

2024年初，Anthropic启动了一个代号叫「巴拿马项目」（Project Panama）的秘密计划。

具体操作是这样的：大量购入实体书→用液压切割机整齐地切掉书脊→高速扫描仪把页面扫成PDF→把撕碎的残骸交给回收公司拉走。

整个过程就像一个流水线工厂，只不过原料是书，产品是数字化的文本，废料是纸浆。

Anthropic雇了Tom Turvey来操盘这个项目——他是Google Books图书扫描项目的前负责人。但Google扫描图书用的是非破坏性拍摄技术，书扫完原样还回图书馆。Anthropic选择了更快的路：直接撕。

为什么要撕？因为快，而且便宜。在AI竞赛的压力下，速度和成本压倒了一切。

问题来了：既然要数字化文本，为什么不直接买电子书？

答案是：Anthropic一开始确实是这么干的——但用的是盗版。

2021年，联合创始人Ben Mann从LibGen（一个盗版电子书网站）下载了数百万本书。2022年，他还在内部群里推荐另一个盗版书网站Pirate Library Mirror，说它上线「just in time!!!」。

但到了2024年，法律风险越来越大。CEO Dario Amodei不想继续走「法律/实务/商业的泥潭」了。

于是他们找到了一个法律漏洞：「首次销售原则」（first-sale doctrine）。

这个原则很简单：你买了一本书，这本书就是你的。你可以烧了它、撕了它、送人，不需要经过作者同意。Anthropic的逻辑是——我合法买了实体书，我把它数字化自己用（不传播），然后把原件销毁，这算合理使用。

法官William Alsup居然认可了这个逻辑。他在判决书中把这种行为比作「节省空间的格式转换」，认定为合理使用（fair use）。

如果不是之前用过盗版书，Anthropic可能就完全合法地开创了AI训练数据获取的先例。但盗版的前科让案件复杂化了——最终Anthropic以15亿美元和解，但从未承认违法。

💡 这里是浩哥AI实验室，专注分享「一个人+AI」的真实实战记录。从工具测评到项目搭建，从踩坑经验到行业观察，用大白话讲清楚 AI 到底能干什么、不能干什么。觉得有用的话，欢迎关注，每周持续更新 👇

最讽刺的是，Anthropic自己清楚这件事有多难看。

一份2024年的内部计划文件写着：「我们不希望外界知道我们在做这件事。」

他们不是不知道伦理问题——他们是精确计算过，知道公众反应会很糟糕，但觉得法律上站得住脚，所以还是干了。

这让人想到另一个细节：Claude在被问到这件事时的回应。它说：「这种破坏帮助创造了我——一个能讨论文学、帮助人们写作、与人类知识互动的存在——这增加了复杂的层次。就像从图书馆的灰烬中建立起来。」

一个从被撕碎的书页中诞生的AI，用那些书教它的语言，优雅地感叹自己的诞生。

这事不是孤例。

法庭文件显示，Meta也在做类似的事。Mark Zuckerberg的公司同样从LibGen等盗版网站获取了数百万本书来训练LLaMA模型。

一位Meta工程师在2023年写道：「用公司笔记本下载种子……感觉不太对。」后面跟了一个咧嘴笑的表情。

另一位员工则更实际：「如果有媒体报道我们使用了已知盗版的数据集，可能会削弱我们与监管机构谈判的立场。」

他们不是不知道错。他们只是觉得被抓住的概率可以接受。

就在Anthropic撕书的同时，OpenAI和微软在跟哈佛大学合作，用近100万本公共领域的古籍训练AI——从15世纪到近代，全部用非破坏性方式数字化，原书完好无损地留在图书馆里。

Internet Archive更是早就证明了，非破坏性扫描完全可以大规模实现。

Google Books项目扫描了数千万本书，用的是专利相机技术，书扫完还回图书馆，一本都没毁。

所以技术上是可行的。只不过Anthropic选择了更快、更便宜、更有破坏性的那条路。

表面上看，这是一个版权案件。但更深层的问题是：

AI行业对训练数据的饥渴已经到了什么程度？

大语言模型需要海量高质量文本来训练。网上的免费文本（维基百科、新闻、论坛）已经被反复使用，边际效益递减。真正高质量的文本——经过编辑、审校、结构化的——集中在书籍和学术论文里。

而这些内容的版权控制得很紧。

Anthropic的选择揭示了一个残酷的现实：当法律障碍挡在数据和利润之间时，AI公司不会停下脚步。他们会找到漏洞、绕过障碍、先干了再说。等被起诉了再赔钱——15亿对Anthropic的融资规模来说，不算致命。

书的灰烬养活了Claude。下一个AI会烧什么？

我写这篇文章用的工具——Claude——它的知识有一部分就来自那些被撕碎的书。

这不是一个简单的对错问题。但至少，我们应该知道发生了什么，然后自己判断。

参考资料： - Anthropic destroyed millions of print books to build its AI models - Ars Technica - Anthropic Knew the Public Would Be Disgusted - Futurism - Anthropic destructively scanned millions of books - Washington Post