AI训练大手笔:Anthropic斥资数百万购书后“销毁”引争议

   时间:2025-06-26 13:49 来源:天脉网作者:钟景轩

近期,人工智能领域的一起法庭案件引起了广泛关注。据悉,人工智能公司Anthropic为了训练其AI助手Claude,采取了一项颇具争议的措施:购买大量实体图书,将其拆解并扫描成数字文件。

根据公开的法庭文件,Anthropic在2024年初雇佣了曾在Google Books项目中负责合作事务的Tom Turvey,目的是“获取全世界的图书”。这一举动显然是为了复制谷歌图书数字化的模式,该模式曾被法院认定为合理使用。

然而,Anthropic的做法并非一帆风顺。尽管法官William Alsup最终裁定其扫描方式构成合理使用,理由包括图书的合法购买、扫描后的即刻销毁以及数字文件的内部使用,但早期的盗版行为仍然削弱了其合法性。据悉,为了加速AI训练数据的获取,Anthropic曾考虑过使用盗版电子书,并在后期采取了“破坏式扫描”的方法,即将图书拆封、裁剪后整批扫描为PDF文件,随后废弃纸本。

AI训练对海量优质文本的需求是这一争议背后的核心原因。为了构建大语言模型,研究人员需要将亿万词语输入神经网络进行反复训练,以建立词语与概念之间的关系。而编辑过的书籍和文章作为高质量的训练文本,能够显著提升AI的语言能力。

面对出版内容的迫切需求,AI公司通常不愿耗费时间进行版权授权。在美国,“首次销售原则”为购买实体书后的自行处理提供了法律空间,这使得购买图书成为了一种合法的“绕道方案”。然而,Anthropic最初选择了绕过版权的捷径,这为其后来的法律争议埋下了伏笔。

随着法律风险的增加,Anthropic开始寻求更安全的替代方案。收购二手书成为了一个理想的选择,因为它既不需要谈授权,又能获得质量上乘的训练文本。然而,为了加快数字化进程,Anthropic仍然采用了“破坏式扫描”的方法,整个流程耗资数百万美元。

值得注意的是,非破坏性扫描技术早已成熟。例如,Internet Archive就开发出了可以保留原书的数字化手段。本月早些时候,OpenAI和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍训练AI,这些书籍在被数字化的同时依旧得到了妥善保存。相比之下,Anthropic的“破坏式扫描”方法显得尤为激进和争议。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报