欧美数据合规!Reddit限制抓取,8660亿网页数据受限!
近期,全球知名社交平台Reddit对互联网档案库(Internet Archive)的数据抓取权限实施了限制措施,这一动作在数字内容保护领域引发广泛讨论。新媒网跨境了解到,Reddit此次调整主要针对该非营利组织的"Wayback Machine网页存档服务,该服务此前可完整抓取Reddit社区内容用于历史存档。
202年第二季度,Reddit向《The Verge》等外媒证实,其识别到部分人工智能公司通过Wayback Machine违规获取平台数据的案例。根据最新政策,互联网档案库将被限制只能索引Reddit官网首页,无法继续抓取具体社区讨论内容。平台发言人表示,尽管该机构为开放网络提供服务,但必须防止第三方滥用存档数据的行为。
资料显示,互联网档案库目前保存着8660亿个网页的历史数据,其中2013年存在的网页已有38%无法访问。这项始于1996年的数字保存项目,长期被记者、学者等群体用作关键研究工具。在美国总统特朗普任期内,该机构曾因"国家应急图书馆"计划陷入版权纠纷诉讼。
这一限制措施被认为是Reddit数据保护政策的延续。2023年,该平台就曾改革其API收费体系以控制数据流向。新媒网获悉,类似举措在科技行业已成趋势:领英(LinkedIn)去年通过诉讼成功阻止了某HR平台的数据抓取行为;Meta公司也针对多个数据采集服务商发起法律行动。
行业观察人士指出,随着人工智能发展,公开网络内容的权属争议日益凸显。尽管互联网档案库等非营利项目坚持开放获取原则,但平台方为保护数据资产采取的防御性措施正在增加。目前,Reddit的社区讨论仍可通过平台自有渠道访问,但历史版本查阅将受重大影响。
在法律层面,美国第九巡回上诉法院2024年的一项裁决确立了"未经授权的数据采集可能违反《计算机欺诈与滥用法》"的判例。不过对于完全公开的网络信息,其使用边界仍存在法律空白。业内人士表示,近期微软与新闻集团达成的AI内容合作协议,可能为行业数据授权提供新范式。
值得注意的是,互联网档案库创始人Brewster Kahle近期在接受外媒采访时强调,该机构始终遵循 robots.txt协议,且存档数据主要用于学术研究。据统计,目前全球约65%的网站管理员会通过该协议设定爬虫访问规则。
新媒网跨境(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

Amazon Kindle Paperwhite 16GB (newest model) – Our fastest Kindle ever, with new 7" glare-free display and weeks of battery life – Black
$ 135.99

Blink Mini 2 (newest model) — Home Security & Pet Camera with HD video, color night view, motion detection, two-way audio, and built-in spotlight — 1 camera (White)
$ 39.99

Ring Rechargeable Quick Release Battery Pack
$ 33.42

Blink Video Doorbell (newest model) – Head-to-toe HD view, two-year battery life, and simple setup. Sync Module Core included – System (Black)
$ 69.99

Amazon Echo Dot (newest model), Vibrant sounding Alexa speaker, Great for bedrooms, dining rooms and offices, Charcoal
$ 49.99

评论(0)