Reddit怒告AI公司非法抓取!“工业规模”数据战开启。
一场关于数字内容所有权与人工智能数据抓取边界的法律风波,正在全球科技界掀起波澜。近日,知名社交媒体平台Reddit正式向美国法院提起诉讼,指控两家科技公司——人工智能搜索引擎Perplexity以及SEO数据服务商SerpApi——以“工业规模”非法抓取其内容,并将其用于各自的服务中。此举不仅揭示了内容平台与AI公司之间日益紧张的关系,也为未来数据使用和版权保护划定界限提供了新的探讨范本。
事件概述:Reddit对数据抓取行为亮剑
新媒网跨境获悉,这起备受关注的诉讼发生于近期,Reddit将矛头指向了包括Perplexity和SerpApi在内的四家数据抓取公司。Reddit的核心指控在于,这些公司通过伪装成普通用户或搜索引擎爬虫,规避了平台的技术限制,并通过抓取Google搜索结果中的Reddit内容,实现了对其数据的“工业规模”非法使用。
具体而言,Reddit在诉讼文件中详述了这些被指控的公司如何通过技术手段掩盖其真实身份,绕过Reddit设定的访问频率和机器人检测机制,大规模地从其平台获取数据。Reddit强调,其平台上的内容是用户贡献的宝贵资产,任何未经授权的商业化使用均构成侵权。通过此次诉讼,Reddit寻求多重法律救济,包括经济赔偿、永久性禁令,以及禁止被指控公司继续使用或销售此前已抓取数据的命令。
值得注意的是,被告之一的SerpApi据报道曾是OpenAI的客户,这一背景使得此次诉讼在生成式AI蓬勃发展的当下,更具深远的行业意义。它将数据抓取、内容所有权与AI模型训练的数据来源问题紧密联系起来。
核心证据:Reddit巧妙设下的“诱捕”
为了强化其指控,Reddit在诉讼中披露了一项“诱捕”行动。平台特意创建了一个只有Google爬虫能够访问的测试帖子。令人震惊的是,在短短数小时内,这个仅供Google爬虫可见的帖子便出现在了Perplexity的搜索结果中。Reddit认为,这一现象提供了直接证据,表明Perplexity在生成其搜索结果时,依赖于从Google抓取的数据,进而间接获取了Reddit的私有测试内容。这一“诱捕”策略不仅证明了抓取行为的存在,也揭示了其技术手段的隐蔽性。
新媒网了解到,此次事件的爆发,正值Reddit与Google之间 reportedly 讨论一项新的合作关系。这种在合作洽谈之际,一方却对另一方生态系统中的“食利者”采取法律行动的局面,进一步凸显了数据生态系统的复杂性和各方利益的微妙平衡。
行业背景:生成式AI浪潮下的数据权属争议
此次Reddit的诉讼并非孤立事件,它折射出在生成式人工智能时代,内容平台与AI公司之间日益加剧的紧张关系。长期以来,Google等搜索引擎与内容创作者之间存在着一种共生关系:搜索引擎通过索引内容为网站带来流量,而网站则为搜索引擎提供丰富的信息来源。然而,随着生成式AI的崛起,这种关系开始转向对抗。
AI模型对大量数据的需求,导致了数据抓取活动的激增。这些AI系统在聚合和总结信息时,往往直接提供“零点击”答案,使得用户无需访问原始内容来源即可获取信息。这直接导致了内容网站的有机流量下降,进而影响其广告收入和商业模式。
外媒普遍关注到,这种转变对内容生态系统构成了严峻挑战。内容创作者投入大量资源生产的原创内容,可能未经授权就被用于训练AI模型,或被AI产品直接呈现,而原作者却无法从中获得合理的回报。这种现状引发了关于知识产权、公平使用原则以及数字内容价值分配的广泛讨论。
对此,一些数据服务商也公布了相关趋势。例如,外媒在2025年7月曾分享Cloudflare的数据,揭示了机器人流量的增长以及其对网络生态的影响。与此同时,数据显示,尽管AI系统的流量正在增长,但Google作为传统的搜索引擎,其为内容网站带来的访客数量仍远超AI系统,达到831倍之多。这一对比凸显了传统搜索引擎在流量引导方面的重要作用,也间接说明了AI系统目前在用户分流方面仍处于早期阶段,但其潜在影响不容忽视。
此次诉讼,正是在这一宏大背景下发生的。它预示着未来围绕数据抓取、版权保护和AI训练数据合法性方面的法律战将持续升级。包括Google、OpenAI、Anthropic在内的行业巨头,都将密切关注此类案件的进展,因为其判决结果可能为全球范围内的内容提供商和AI开发者设定新的行为规范。
市场动向与未来展望
外媒在此前报道中也指出,Reddit此次行动的目的,不仅仅是针对个别公司,更是为了向整个行业传递一个明确的信号:未经授权的“工业规模”数据抓取行为,将面临法律追责。这一事件也促使人们重新审视数据共享协议和API接口的合理定价,以及如何确保内容创作者在AI时代获得公平的回报。
新媒网跨境认为,此案的判决结果将对以下几个方面产生深远影响:
- 数据抓取行为的法律边界: 明确哪些数据抓取行为是合法的,哪些是非法的,以及“工业规模”抓取的具体界定。
- 内容平台的议价能力: 增强内容平台对其数据的控制权,提高其在与AI公司合作时的议价能力。
- AI模型训练的数据来源: 促使AI开发者更加重视数据的合法来源和版权合规性,或寻求更正式的数据授权合作。
- 网络内容生态的演变: 影响未来网络内容的创作、分发和商业模式,推动更可持续的内容价值循环。
总之,Reddit对Perplexity和SerpApi的诉讼,不仅是两家公司之间的法律纠纷,更是数字时代内容所有权与人工智能技术发展之间深层矛盾的一次集中体现。其结果将可能重塑互联网的数据使用规则,为全球跨境行业的参与者提供重要的参考与指引。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/reddit-fights-ai-over-massive-data-grab.html

评论(0)