欧美数据合规!Reddit限制抓取,8660亿网页数据受限!

2025-08-12Reddit

Image

近期,全球知名社交平台Reddit对互联网档案库(Internet Archive)的数据抓取权限实施了限制措施,这一动作在数字内容保护领域引发广泛讨论。新媒网跨境了解到,Reddit此次调整主要针对该非营利组织的"Wayback Machine网页存档服务,该服务此前可完整抓取Reddit社区内容用于历史存档。

202年第二季度,Reddit向《The Verge》等外媒证实,其识别到部分人工智能公司通过Wayback Machine违规获取平台数据的案例。根据最新政策,互联网档案库将被限制只能索引Reddit官网首页,无法继续抓取具体社区讨论内容。平台发言人表示,尽管该机构为开放网络提供服务,但必须防止第三方滥用存档数据的行为。

资料显示,互联网档案库目前保存着8660亿个网页的历史数据,其中2013年存在的网页已有38%无法访问。这项始于1996年的数字保存项目,长期被记者、学者等群体用作关键研究工具。在美国总统特朗普任期内,该机构曾因"国家应急图书馆"计划陷入版权纠纷诉讼。

这一限制措施被认为是Reddit数据保护政策的延续。2023年,该平台就曾改革其API收费体系以控制数据流向。新媒网获悉,类似举措在科技行业已成趋势:领英(LinkedIn)去年通过诉讼成功阻止了某HR平台的数据抓取行为;Meta公司也针对多个数据采集服务商发起法律行动。

行业观察人士指出,随着人工智能发展,公开网络内容的权属争议日益凸显。尽管互联网档案库等非营利项目坚持开放获取原则,但平台方为保护数据资产采取的防御性措施正在增加。目前,Reddit的社区讨论仍可通过平台自有渠道访问,但历史版本查阅将受重大影响。

在法律层面,美国第九巡回上诉法院2024年的一项裁决确立了"未经授权的数据采集可能违反《计算机欺诈与滥用法》"的判例。不过对于完全公开的网络信息,其使用边界仍存在法律空白。业内人士表示,近期微软与新闻集团达成的AI内容合作协议,可能为行业数据授权提供新范式。

值得注意的是,互联网档案库创始人Brewster Kahle近期在接受外媒采访时强调,该机构始终遵循 robots.txt协议,且存档数据主要用于学术研究。据统计,目前全球约65%的网站管理员会通过该协议设定爬虫访问规则。

新媒网跨境(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/13363.html

评论(0)

暂无评论,快来抢沙发~
Reddit限制互联网档案库抓取数据,引发数字内容保护讨论。Reddit此举旨在防止数据被滥用,是其数据保护政策的延续。类似举措在科技行业已成趋势,公开网络内容的权属争议日益凸显。法律层面对数据采集行为的界定尚存空白,行业或探索数据授权新模式。
发布于 2025-08-12
查看人数 1645
汇率走势CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。