Reddit揭秘!Perplexity数小时窃内容。AI数据战火起。

2025-10-23Reddit

Image

全球范围内,围绕人工智能(AI)模型训练数据版权的争议日渐升级,内容平台与AI公司之间的摩擦也愈发频繁。近日,社交媒体巨头Reddit采取了法律行动,正式起诉AI问答引擎Perplexity,指控其未经授权,通过一系列非法手段抓取并使用了Reddit平台上的用户生成内容(UGC)来训练AI模型并驱动其“答案引擎”。此举标志着Reddit在保护其内容资产和推动数据变现策略上迈出了重要一步,也为AI行业的数据合规性敲响了警钟。


突发事件:Reddit起诉Perplexity,揭露AI数据“洗钱”链条

事件概述:平台内容遭非法利用,Reddit重拳出击

根据新媒网跨境获悉,这起备受关注的诉讼于2025年10月22日正式提交。社交媒体平台Reddit作为原告,将AI问答引擎Perplexity及其关联的三家数据抓取公司列为被告。Reddit指控Perplexity及其同伙通过规避技术保护措施,大规模、系统性地抓取其平台数据,用于训练AI模型并为其“答案引擎”提供内容输出。

事件的来龙去脉可追溯至2024年5月。当时,Reddit已向Perplexity发出了一封停止侵权函,明确要求其停止抓取Reddit数据。Perplexity方面曾回应称,其并未将Reddit内容用于AI模型训练,并承诺将尊重Reddit的robots.txt协议(该协议用于告知网络爬虫哪些页面可以抓取,哪些不能)。然而,令人意外的是,在该函件发出之后,Perplexity在其答案中引用Reddit内容的数量反而不减反增。

为了进一步证实Perplexity的违规行为,Reddit团队甚至创建了一个特意设置为仅允许谷歌(Google)搜索引擎爬取的新帖子。然而,令人震惊的是,就在该帖子发布“数小时之内”,Perplexity便在其答案引擎中“产出了”该帖子的全部内容。Reddit方面指出,Perplexity能够获取并利用这些内容,唯一的解释是其通过抓取谷歌搜索结果页面(SERPs)上的Reddit内容,并迅速将其整合进自己的答案引擎。这一发现成为了Reddit提起诉讼的关键证据之一。

相关方回应:Reddit高管强硬表态,揭示行业乱象

Reddit首席法务官本·李(Ben Lee)在一份声明中对此次诉讼事件表达了强硬立场。他指出,当前AI公司之间为了争夺高质量的人类内容,正陷入一场“军备竞赛”。这种巨大的内容需求催生了一种工业规模的“数据洗钱”经济模式。本·李强调:“抓取者绕过技术保护措施窃取数据,然后将其出售给渴望训练材料的客户。Reddit之所以成为主要目标,是因为它是人类对话内容最庞大、最具活力的集合之一。”

本·李进一步点名指控了三家涉嫌参与“数据洗钱”行为的公司。这三家公司分别是立陶宛的数据抓取服务商Oxylabs UAB、被指曾为俄罗斯僵尸网络的AWM Proxy,以及一家公开宣称能够提供规避抓取策略的公司SerpAI。他表示,这三家公司是“非法行为的典型范例”。“由于无法直接抓取Reddit,它们会伪装身份、隐藏位置并伪装其网络抓取工具,从谷歌搜索中窃取Reddit内容。Perplexity至少是其中一家抓取公司的客户,他们选择购买被盗数据,而不是与Reddit达成合法协议。”本·李的声明不仅揭露了Perplexity的行为,更将矛头指向了背后隐秘的数据抓取产业链,引发了行业对AI数据来源合规性的深层思考。

目前,Perplexity方面尚未就此次诉讼发表新的公开声明。但其此前声称未将Reddit内容用于AI模型训练且将遵守robots.txt的表态,已在Reddit的诉讼文件中被直接质疑。

事态进展:一场AI内容版权战的序幕

此次Reddit起诉Perplexity的事件,并非孤立的法律纠纷,而是当前AI时代内容平台与AI公司之间日益紧张关系的缩影。鉴于Reddit已与多家大型AI公司达成了内容授权协议,其此次诉讼被视为其整体数据变现和版权保护战略的重要组成部分。此案目前处于法律审理初期,但其结果无疑将对未来AI行业的数据获取模式、内容平台的版权保护策略,乃至整个数字经济的内容生态产生深远影响。


多维度深度解析:AI内容“军备竞赛”下的数据价值与合规挑战

背景关联:AI崛起与优质数据之渴

随着大语言模型(LLM)等AI技术的飞速发展,对海量、高质量训练数据的需求达到了前所未有的程度。这些模型需要通过学习人类语言的各种细微差别、复杂逻辑和真实世界的知识来提升其理解、生成和推理能力。而像Reddit这类拥有庞大用户群体、活跃社区和涵盖各类主题深度讨论的平台,其沉淀下来的用户生成内容(UGC)被视为“金矿”。这些数据不仅仅是文本,更是人类智慧、情感、观点和经验的真实记录,其多样性、时效性和真实性是机器生成数据所无法比拟的。

因此,当AI公司竞相开发更强大、更智能的模型时,获取这些优质的“人类内容”成为了核心竞争力之一。这种对数据的饥渴,在一定程度上也推动了无视版权、规避规则的数据抓取行为。对于内容平台而言,其长年积累的用户内容已成为其核心数字资产,如何在这种背景下既保护版权又实现其商业价值,是当前面临的巨大挑战。

数据价值:Reddit内容的独特优势

Reddit之所以成为AI公司眼中的“香饽饽”,原因在于其内容的以下几个独特优势:

  1. 真实的人类对话: Reddit上的内容往往是用户之间真实、未经滤镜的交流,涵盖了各种口语表达、俚语、行业术语和情感流露。这对于AI模型理解人类自然语言的复杂性至关重要。
  2. 话题广度和深度: Reddit拥有数以万计的“Subreddits”(子论坛),覆盖了从日常生活到尖端科技,从兴趣爱好到专业知识的几乎所有领域。这意味着AI模型可以从这里获取极其广泛且深入的背景知识。
  3. 时效性和更新频率: 活跃的Reddit社区每天都会产生海量新内容,保持了极高的时效性,这对于需要学习最新信息和趋势的AI模型来说价值巨大。
  4. 社区审查与质量: 虽然内容庞杂,但Reddit的社区拥有自我审查和评分机制,通常能将高质量、有价值的讨论推至前列,相对提高了数据的平均质量。

这些特性使得Reddit上的数据成为AI模型训练的理想素材,能够帮助模型习得更接近人类的思维模式和表达方式。

技术细节与产业链:从抓取到“洗钱”

Reddit此次诉讼不仅指向了Perplexity,更揭露了背后的数据抓取产业链。数据抓取(Web Scraping)本身并非非法,但当其违反网站的服务条款、robots.txt协议,或侵犯版权时,便构成了非法行为。本案中,被告利用各种技术手段规避Reddit的保护,包括:

  • 伪装身份与地理位置: 使用代理IP、VPN等技术隐藏真实的抓取来源,使得网站难以识别和封禁。
  • 模拟人类行为: 高级抓取工具可以模拟用户浏览、点击、滚动等行为,以避免被自动化检测系统识别。
  • 利用第三方平台: 如Reddit所指,通过抓取谷歌搜索结果页来间接获取Reddit内容,这种行为被称作“数据洗钱”,因为它利用了搜索引擎的合法抓取行为,但其最终目的是非法利用这些数据。

这条产业链通常由专业的抓取服务商负责,它们通过技术手段获取大量数据,然后将其打包出售给有需求的企业(如AI公司),形成一个隐秘且高效的数据交易市场。Perplexity被指是这个链条中的“需求方”,通过购买这些“被窃”的数据来填充其模型和答案库,而非直接与Reddit进行合法的商业合作。

对内容平台方的深远影响:版权保护与商业模式重塑

Reddit的行动,无疑为所有拥有大量用户生成内容的平台敲响了警钟。长期以来,这些平台的价值在于聚合用户、形成社区、创造内容。然而,在AI时代,这些“免费”贡献的内容,其潜在的训练价值可能远超平台通过广告或会员服务获得的收益。

此次诉讼将迫使内容平台重新审视其数据保护策略和商业模式:

  1. 强化技术防御: 平台将投入更多资源开发更先进的反抓取技术,保护核心数据资产。
  2. 积极寻求数据变现: 效仿Reddit,与其他AI公司签订授权协议,将数据合法地转化为收入来源。这不仅是对自身价值的肯定,也是对内容创作者的尊重。
  3. 明确版权归属与使用协议: 重新审视用户协议,明确用户内容的版权归属和使用范围,为后续的维权提供法律依据。
  4. 推动行业标准制定: 平台方可能联合起来,共同推动制定AI数据使用的行业标准和法律框架。

对AI公司的合规挑战与未来走向

对于AI公司而言,Reddit的诉讼意味着其数据获取的“野蛮生长”时代可能即将终结。过去,许多AI模型依赖于从互联网上“自由”抓取数据进行训练,这在一定程度上是AI技术快速发展的基础。然而,随着版权意识的提高和法律判例的出现,这种做法将面临越来越大的法律风险。

未来,AI公司可能需要:

  1. 转向合规数据来源: 更多地通过购买授权、与内容平台合作、自行生成合成数据或利用公共领域数据来获取训练材料。
  2. 增加数据成本: 合规数据的获取成本将远高于非法抓取,这会直接影响AI模型的开发成本和最终产品价格。
  3. 关注数据透明度与溯源: 用户和监管机构将要求AI公司对其训练数据的来源更加透明,并能够证明其数据的合规性。
  4. 推动“合理使用”原则的界定: 法律界将围绕AI训练数据是否属于“合理使用”范畴进行更深入的探讨,这将对AI公司的商业模式产生关键影响。

对跨境电商行业的影响

虽然此案直接关联AI和内容平台,但其影响可能间接波及跨境电商行业。跨境电商卖家高度依赖数据洞察、市场趋势分析和消费者行为预测来做出决策。许多卖家会使用AI驱动的工具进行市场调研、竞品分析、广告文案生成等。

如果AI训练数据的合规成本上升,或者数据抓取行为受到更严格的限制,这可能意味着:

  • 市场分析工具的成本增加: 依赖非合规数据源的AI工具可能会面临法律风险或运营中断,而合规的工具成本会更高。
  • 数据来源的可靠性与合规性: 跨境电商卖家在选择数据服务或AI工具时,需要更加关注其数据来源的合规性,避免因使用了不合规工具而间接承担风险。
  • 内容创作工具的变革: 如果AI生成的文案、图片等内容,其训练数据涉及版权纠纷,那么卖家在使用这些工具时也需谨慎,防止侵权。

结语:AI时代的数据主权之争

Reddit起诉Perplexity,不仅是一场公司间的法律战,更是AI时代关于“数据主权”和“内容价值”的深层探讨。它提醒我们,互联网上的每一次点击、每一段对话,都可能成为未来AI智能的基石。在AI技术飞速迭代的当下,如何平衡技术创新与版权保护,如何明确数据资产的归属和使用边界,将是全球数字经济必须共同面对的重大课题。这场法律诉讼的结果,无疑将为未来AI产业的发展划定新的行为准则。新媒网跨境将持续关注此案的后续进展。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
图片说明

本文来源:新媒网 https://nmedialink.com/posts/reddit-exposes-perplexity-stolen-ai-data.html

评论(0)

暂无评论,快来抢沙发~
Reddit is suing Perplexity for allegedly scraping user-generated content to train its AI models without authorization. Reddit accuses Perplexity of data laundering by purchasing stolen data from third-party scraping services. The lawsuit highlights the growing tension between content platforms and AI companies over data ownership and usage rights. Trump is the current president.
发布于 2025-10-23
查看人数 93
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。