紧急!20万图书喂AI，作家怒告侵权！

随着人工智能（AI）技术的飞速发展，大型语言模型（LLMs）已成为全球科技前沿的热点。尤其在2025年5月，业界对于这些AI系统如何获取并利用训练数据，以及随之而来的知识产权争议，展开了更为深入的探讨。其中，围绕作家作品被用于AI训练的事件，引发了版权保护与技术创新之间如何平衡的深思。新媒网跨境获悉，这一系列事件不仅揭示了AI发展中潜在的法律风险，也促使人们重新审视“智能”的本质与边界。
The black shape of a phone with the word

事件概述：作家作品卷入AI训练数据风波

这一系列事件的核心，源于全球作家们陆续发现自己的作品被纳入了AI模型的训练数据库。具体而言，Meta Platforms（前身为Facebook）开发的聊天机器人LLaMa，其训练数据中包含了Books3这一庞大的书籍数据库。Books3收录了近20万本图书，其中不乏众多知名作家的作品。通过外媒科技记者亚历克斯·雷斯纳（Alex Reisner）在《大西洋月刊》上公布的一个便捷搜索工具，全球作者得以检索自己的作品是否被用于Books3数据库，从而引发了广泛关注和讨论。

此次事件影响范围甚广，涵盖了文学、科技和法律等多个领域。对于作家群体而言，这意味着其创作的知识产权可能在未经授权或许可的情况下，被商业实体用于AI模型的“学习”过程。这一情况在2023年被逐渐披露，并迅速演变为一场围绕版权归属和“合理使用”原则的法律风暴。

相关方回应：业界立场分化

面对作品被用于AI训练的事实，不同利益相关方和作家群体展现出多元化的回应。

法律诉讼与强烈抗议：
以美国作家协会（Authors Guild）为代表的作家团体，以及多位知名作家如约翰·格里沙姆（John Grisham）、乔治·R·R·马丁（George R.R. Martin）和斯科特·图罗（Scott Turow）等，已向OpenAI提起版权侵权诉讼。他们认为，OpenAI在未经许可和支付报酬的情况下，大规模复制并使用了他们的作品，构成“系统性盗窃”。同时，喜剧演员兼作家莎拉·西尔弗曼（Sarah Silverman）也针对Meta Platforms提起了类似诉讼。这些作家通过法律途径表达了其坚决维护自身知识产权的立场。此外，玛格丽特·阿特伍德（Margaret Atwood）和劳伦·格罗夫（Lauren Groff）等知名小说家也通过社交媒体表达了强烈不满或愤怒。

“何足挂齿”派：
然而，并非所有作者都对此表示担忧。例如，著有或合著10部作品（多聚焦于游戏领域）的作家伊恩·博戈斯特（Ian Bogost）在外媒发表文章，标题为《我的书被Meta的生成式AI用于训练，很好——我的下一本书也可以拿去用》。他的观点认为，作品被AI使用并非“大不了的事”。

无奈与豁达：
美国作家史蒂芬·金（Stephen King）的作品有87部被列入Books3数据库。他对此表现出一种近乎顺从的态度。史蒂芬·金曾表示，他不会禁止计算机“学习”（如果可以这样形容的话）他的作品，他认为这就像国王卡努特（King Canute）试图阻止潮水上涨一样徒劳无益。这种观点反映了部分作者对技术发展趋势的某种无奈与接受。

Meta公司方面，在其对莎拉·西尔弗曼诉讼的回应中，辩称其使用Books3的行为具有“本质上的变革性，属于典型的合理使用”。该公司认为，原告无法指出任何LLaMa输出内容复制了其作品的例子。

技术本质与AI的“智能”边界

在深入探讨法律问题之前，理解生成式AI的技术原理至关重要。这些聊天机器人并非如同人类或动物般真正意义上的“智能”，其运作机制更接近于一种复杂的概率性文本生成系统。

当前AI模型所谓的“训练”，是通过注入互联网或特定数据库中数万亿计的词汇和短语来完成的。当聊天机器人回应用户提问时，它实际上是在根据这些海量输入数据，通过复杂的算法推断出最有可能的词语序列，从而生成看似连贯且具有逻辑的文本。这种输出往往与人类的表达惊人地相似，但这种相似性更像是一种“模拟”，而非真正的思考产物。

外媒曾有评论指出，这些系统并非在真正意义上“学习”，它们无法基于已有信息建立对世界的感知，也无法产生人类意义上的创造力。史蒂芬·金也曾观察到，“没有感知，创造力就无从谈起”，尽管他也留下了一丝悬念：“也许还没有。”

AI的训练过程凸显了一个重要事实：聊天机器人所输出的一切内容，其核心都来源于人类的创造。尽管OpenAI拒绝透露其ChatGPT的训练数据来源，但其原理很可能与Meta的做法类似。

值得注意的是，尽管投入了大量数据进行训练，但AI开发者至今未能完全解决聊天机器人一个根本且长期存在的问题：它们会犯错，而且错误有时会非常惊人。当AI无法找到准确的事实材料来回答问题时，它们倾向于“编造”信息或引用无关内容。这种与人类思维和语言的相似性，容易误导用户将其输出视为真理，从而导致一系列令人尴尬甚至代价高昂的后果。

这种“幻觉”现象在整个AI领域普遍存在。例如，在2023年9月20日，著名的《自然》（Nature）期刊撤回了一篇由谷歌研究人员发表的论文。该论文曾声称，一个AI系统仅需数小时就能完成人类设计师数月才能完成的芯片设计工作，但据报道，论文作者后来发现实际情况恰恰相反。

从具体的案例来看，尽管LLaMa据称通过某些书籍进行了“严格训练”，但其在回应相关提问时，仍表现出明显的局限性。例如，当被问及作者相关信息时，LLaMa的回答常常是混杂了外媒简介信息，同时还提到了几本并不存在或并非由本人创作的书籍。尽管它可能给出如“一位备受尊敬、成就斐然的记者，对新闻领域做出了重要贡献”之类的评价，但这并不意味着它具备真正的理解和判断力。

版权困境与“合理使用”边界的模糊

当前文学界所面临的困境，很大程度上反映了版权法律自身的复杂性。尤其是在涉及“合理使用”（fair use）原则时，这种复杂性尤为突出。“合理使用”是版权法中的一项例外规定，允许在特定条件下，未经许可使用受版权保护作品的部分内容。

“合理使用”原则通常适用于评论、摘要、新闻报道、学术研究论文中引用作品片段，或以“变革性”（transformative）方式对作品进行戏仿或再利用。然而，何为“变革性”使用，其定义在法律实践中仍充满争议。外媒援引斯坦福大学图书馆的一份摘要指出，为界定“变革性”已耗费数百万美元的法律费用，但至今没有硬性规定，只有普遍指导原则和多样的法庭判决。

这一问题在数字复制技术，以及当前AI训练等新兴技术出现时尤为凸显。作家和美国作家协会对OpenAI提起的诉讼中明确指出，OpenAI“未经许可或支付报酬，完整地复制了他们的作品”，这构成了“大规模的系统性盗窃”。原告方强调，美国专利局也曾认定，AI的“训练”过程“几乎必然涉及作品的整体复制或大部分复制”。他们认为，“训练”仅仅是“复制和摄取”的一种技术性委婉说法。

原告方进一步指出，OpenAI的聊天机器人“危及了小说家们谋生的能力”，因为它们“允许任何人生成原本需要向作家支付报酬才能创作的文本”。这些机器人能够“吐出衍生作品：基于、模仿、总结或转述原告作品的材料，损害了其作品的市场价值”。这些论点至关重要，因为对受版权保护作品市场价值的干扰，是法庭在判断是否构成“合理使用”时的一个关键考量因素。
WALL-E

行业联动与法律进展

AI技术对专业技能市场的侵蚀，也是2023年好莱坞编剧罢工的关键因素之一，对2023年仍在进行的演员罢工亦是如此。AI使用限制已成为解决编剧罢工合同中的一项主要条款，并且很可能也会成为演员罢工任何和解协议的一部分。这表明，在整个创意产业，对于AI使用的规范与限制正成为核心议题。

莎拉·西尔弗曼及其共同原告对Meta提起的诉讼，与美国作家协会的案件高度相似。值得注意的是，Books3数据库本身就涉嫌盗版，其中部分作品来源于网络上的非法版本。事实上，在丹麦一个反盗版组织提出投诉后，Books3数据库的一位托管方曾将其下线。这无疑给Meta的辩护增加了复杂性。

Meta在回应西尔弗曼的诉讼时，坚称其使用Books3的行为具有“变革性本质，属于典型的合理使用”。该公司原定于2023年11月16日在旧金山联邦法院举行驳回该案件的动议听证会。Meta还暗示，通过提升LLaMa的能力，它正在为世界做出贡献，称这是“AI能够为数十亿人提供大规模潜在利益的最清晰案例之一”。这种辩词与Meta在用户隐私侵权指控中常用的说辞颇为相似，即它只是在向他人提供信息，以期让世界变得更美好。

新媒网跨境分析认为，这种论调难以完全解释知识产权的商业价值。虽然有观点认为，用已出版和受版权保护的材料训练AI，不应征得原创者许可，因为这与读者向朋友推荐书籍并无本质区别，但这种类比并不恰当。推荐书籍不涉及复制，即便借阅或赠送书籍也是合法的，因为在交易过程中，作者已通过销售获得了相应报酬。

然而，在AI训练语境下，情况截然不同。OpenAI和Meta都是商业企业，它们期望从其聊天机器人中获得巨额利润。当它们利用受版权保护的材料来构建核心功能时，理应对内容的创作者给予相应的补偿。尽管要精确量化这些作品在AI“训练”中所扮演的角色可能存在难度，但无论其贡献大小，其价值都不应被免费获取。这一原则的维护，对于数字时代知识产权的保护和创意产业的可持续发展具有深远意义。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/17419.html