AI数据合规亮红灯!Perplexity引用暴增40倍,Reddit怒告。
一场关于数据使用权与人工智能模型训练的法律争议正在全球科技界引起广泛关注。新媒网跨境获悉,在线社区平台Reddit已正式向美国曼哈顿联邦法院提起诉讼,指控人工智能(AI)初创公司Perplexity及其数据抓取服务商Oxylabs、AWMProxy和SerpApi未经授权,大规模抓取并使用其平台数据以训练AI系统。此举再次将AI时代内容版权与数据合规性的敏感议题推至风口浪尖。
事件概述:Reddit的维权行动
此次诉讼的核心在于Reddit指控被告方未经许可,通过一系列隐蔽手段获取其平台上的用户生成内容,并将其用于商业目的,特别是AI模型的训练。据Reddit提交的诉状,总部位于立陶宛的数据抓取服务商Oxylabs、AWMProxy以及SerpApi涉嫌通过谷歌搜索结果等途径,非法抓取Reddit数据。随后,Perplexity被指控从这些供应商中至少一家购买了这些抓取来的数据。
Reddit在诉讼中详细指出,被告方在进行数据抓取时,采取了多种规避措施,包括伪装其真实身份、隐藏地理位置以及变造网络抓取工具,以绕过Reddit设置的安全防御机制和使用条款。这种行为被Reddit视为对平台数字资产的严重侵犯。
核心指控与事态进展
Reddit进一步透露,他们通过数字标记系统“人赃俱获”地发现了Perplexity访问被抓取内容的行为。据称,在Reddit发出停止商业使用其数据的警告函(cease-and-desist warning)后,Perplexity不仅没有停止,反而对Reddit内容的引用量增加了四十倍。诉状明确指出:“鉴于Perplexity是SerpApi的公开客户,其获取Reddit非法数据的来源和方式几乎毋庸置疑。”这表明Reddit掌握了较为确凿的证据链,以支持其关于数据流向和使用方式的指控。
此案不仅涉及Perplexity对Reddit数据的直接使用,更深层次地揭示了AI训练数据供应链中的潜在问题。Reddit首席法务官本·李在一份声明中表示:“AI公司正陷入一场争夺高质量人类内容的军备竞赛,这种压力助长了一个工业规模的‘数据洗钱’经济。”他将被告方Oxylabs、AWMProxy和SerpApi描述为“教科书式的例子”,指责它们从立陶宛的抓取公司到前俄罗斯僵尸网络,形成了一个为AI公司提供非法数据的链条。李强调,Perplexity作为其中至少一家抓取服务商的“自愿客户”,选择购买“被盗数据”,而非与Reddit签订合法协议。
相关方回应与行业背景
针对Reddit的指控,涉事的部分公司已作出回应。外媒联系到SerpApi时,其客户成功总监瑞安·谢弗表示,他们是通过外媒的询问才得知诉讼的,并“强烈不同意Reddit的指控,打算在法庭上积极为自己辩护”。类似地,Oxylabs首席治理与战略官德纳斯·格里包斯卡斯也发布声明称,Oxylabs一直是并将继续是公共数据收集领域的先驱和行业领导者,并将捍卫自己免受这些指控。他强调,Oxylabs提供的是合规访问公共信息的底层基础设施,并要求其所有客户合法使用其服务。截至目前,Perplexity和AWMProxy尚未对此事件发表公开评论。
这场诉讼并非孤立事件。在新媒网跨境看来,这反映了当前AI产业发展与内容版权保护之间日益加剧的冲突。近年来,随着大型语言模型(LLM)等AI技术的飞速发展,高质量、大规模的数据集成为训练AI模型不可或缺的“燃料”。Reddit作为一个拥有海量用户生成内容、讨论主题广泛、信息更新迅速的平台,其数据对AI训练具有极高的价值。此前,Reddit已将其部分数据授权给OpenAI和谷歌等AI巨头用于模型训练,这表明Reddit并非完全排斥与AI公司的合作,但其前提是建立在合法、合规的授权协议之上。然而,对于那些未经授权便直接抓取和使用其数据的行为,Reddit的态度则异常坚决。今年早些时候,Reddit也曾对AI公司Anthropic提起过类似的诉讼,进一步印证了其在数据主权和版权保护方面的强硬立场。
行业影响与深层考量
此次诉讼预计将对整个AI行业的数据获取模式产生深远影响。
1. 数据合规性审查加强: 随着此类诉讼的增多,AI开发者和数据供应商在数据采购和使用过程中,将面临更为严格的合规性审查。单纯依赖公共可访问性来获取数据,其合法性基础将受到严峻挑战。AI公司可能需要投入更多资源,以确保其训练数据来源的合法性,这包括与内容平台建立正式的授权协议,或是开发更精细的过滤机制来识别并排除受版权保护或未经授权的内容。
2. 内容平台维权意识提升: Reddit的行动将激励更多拥有海量用户生成内容(UGC)的平台,积极采取措施保护其数据资产。这可能包括强化技术防御手段,打击未经授权的数据抓取;同时,也会促使这些平台探索更多元的数据货币化途径,例如建立更完善的API授权体系,或是与AI公司协商定制化的数据许可方案。
3. “数据洗钱”行为受打击: Reddit首席法务官提出的“数据洗钱”概念,精准地指出了通过第三方抓取服务商获取非法数据,再转售给AI公司的灰色产业链。此次诉讼若能取得有利判决,将对这类服务商形成强力震慑,促使整个数据抓取行业走向更加透明和合规。
4. 版权法与AI技术融合的挑战: 本案也将推动司法系统在版权法与AI技术交叉领域的发展。法院如何界定AI模型训练过程中对原始内容的使用是否构成侵权,如何平衡数据共享与知识产权保护,以及如何评估AI使用未经授权数据所带来的商业利益与原告损失,都将是未来判决需要考量的关键因素。
展望未来
Reddit与Perplexity等公司之间的法律战,不仅仅是一场针对特定数据抓取行为的纠纷,更是数字时代知识产权保护与AI技术创新发展之间矛盾的缩影。无论最终结果如何,本案都将为AI训练数据的获取和使用设定新的行业规范与法律边界。对于全球跨境电商、数字内容产业及AI开发者而言,密切关注此案进展,并提前调整数据策略,以适应日益严格的合规要求,将成为应对未来挑战的关键。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/reddit-sues-perplexity-over-ai-data-40x-use.html

评论(0)