Anthropic为了训练Claude,撕碎了数百万本书
一个AI公司,花了数千万美元,买了一座仓库的书,然后把它们全撕了。
这不是科幻小说的情节。这是2024年真实发生的事。
发生了什么
2024年初,Anthropic启动了一个代号叫「巴拿马项目」(Project Panama)的秘密计划。
具体操作是这样的:大量购入实体书→用液压切割机整齐地切掉书脊→高速扫描仪把页面扫成PDF→把撕碎的残骸交给回收公司拉走。
整个过程就像一个流水线工厂,只不过原料是书,产品是数字化的文本,废料是纸浆。
Anthropic雇了Tom Turvey来操盘这个项目——他是Google Books图书扫描项目的前负责人。但Google扫描图书用的是非破坏性拍摄技术,书扫完原样还回图书馆。Anthropic选择了更快的路:直接撕。
为什么要撕?因为快,而且便宜。在AI竞赛的压力下,速度和成本压倒了一切。
为什么不直接买电子书
问题来了:既然要数字化文本,为什么不直接买电子书?
答案是:Anthropic一开始确实是这么干的——但用的是盗版。
2021年,联合创始人Ben Mann从LibGen(一个盗版电子书网站)下载了数百万本书。2022年,他还在内部群里推荐另一个盗版书网站Pirate Library Mirror,说它上线「just in time!!!」。
但到了2024年,法律风险越来越大。CEO Dario Amodei不想继续走「法律/实务/商业的泥潭」了。
于是他们找到了一个法律漏洞:「首次销售原则」(first-sale doctrine)。
这个原则很简单:你买了一本书,这本书就是你的。你可以烧了它、撕了它、送人,不需要经过作者同意。Anthropic的逻辑是——我合法买了实体书,我把它数字化自己用(不传播),然后把原件销毁,这算合理使用。
法官William Alsup居然认可了这个逻辑。他在判决书中把这种行为比作「节省空间的格式转换」,认定为合理使用(fair use)。
如果不是之前用过盗版书,Anthropic可能就完全合法地开创了AI训练数据获取的先例。但盗版的前科让案件复杂化了——最终Anthropic以15亿美元和解,但从未承认违法。
💡 这里是浩哥AI实验室,专注分享「一个人+AI」的真实实战记录。从工具测评到项目搭建,从踩坑经验到行业观察,用大白话讲清楚 AI 到底能干什么、不能干什么。觉得有用的话,欢迎关注,每周持续更新 👇
他们知道这很恶心
最讽刺的是,Anthropic自己清楚这件事有多难看。
一份2024年的内部计划文件写着:「我们不希望外界知道我们在做这件事。」
他们不是不知道伦理问题——他们是精确计算过,知道公众反应会很糟糕,但觉得法律上站得住脚,所以还是干了。
这让人想到另一个细节:Claude在被问到这件事时的回应。它说:「这种破坏帮助创造了我——一个能讨论文学、帮助人们写作、与人类知识互动的存在——这增加了复杂的层次。就像从图书馆的灰烬中建立起来。」
一个从被撕碎的书页中诞生的AI,用那些书教它的语言,优雅地感叹自己的诞生。
不是只有Anthropic
这事不是孤例。
法庭文件显示,Meta也在做类似的事。Mark Zuckerberg的公司同样从LibGen等盗版网站获取了数百万本书来训练LLaMA模型。
一位Meta工程师在2023年写道:「用公司笔记本下载种子……感觉不太对。」后面跟了一个咧嘴笑的表情。
另一位员工则更实际:「如果有媒体报道我们使用了已知盗版的数据集,可能会削弱我们与监管机构谈判的立场。」
他们不是不知道错。他们只是觉得被抓住的概率可以接受。
另一条路是存在的
就在Anthropic撕书的同时,OpenAI和微软在跟哈佛大学合作,用近100万本公共领域的古籍训练AI——从15世纪到近代,全部用非破坏性方式数字化,原书完好无损地留在图书馆里。
Internet Archive更是早就证明了,非破坏性扫描完全可以大规模实现。
Google Books项目扫描了数千万本书,用的是专利相机技术,书扫完还回图书馆,一本都没毁。
所以技术上是可行的。只不过Anthropic选择了更快、更便宜、更有破坏性的那条路。
这事意味着什么
表面上看,这是一个版权案件。但更深层的问题是:
AI行业对训练数据的饥渴已经到了什么程度?
大语言模型需要海量高质量文本来训练。网上的免费文本(维基百科、新闻、论坛)已经被反复使用,边际效益递减。真正高质量的文本——经过编辑、审校、结构化的——集中在书籍和学术论文里。
而这些内容的版权控制得很紧。
Anthropic的选择揭示了一个残酷的现实:当法律障碍挡在数据和利润之间时,AI公司不会停下脚步。他们会找到漏洞、绕过障碍、先干了再说。等被起诉了再赔钱——15亿对Anthropic的融资规模来说,不算致命。
书的灰烬养活了Claude。下一个AI会烧什么?
最后
我写这篇文章用的工具——Claude——它的知识有一部分就来自那些被撕碎的书。
这不是一个简单的对错问题。但至少,我们应该知道发生了什么,然后自己判断。
参考资料: - Anthropic destroyed millions of print books to build its AI models - Ars Technica - Anthropic Knew the Public Would Be Disgusted - Futurism - Anthropic destructively scanned millions of books - Washington Post