电商预警!AI爬虫争议引爆版权风险,超37%平台已设防

2025-08-05知识产权

Image

2025年第二季度,全球互联网基础设施服务商Cloudflare与AI问答引擎Perplexity围绕网络爬虫合规性的公开交锋引发跨境数字服务行业高度关注。新媒网跨境获悉,这场争议的核心在于AI技术快速发展背景下,传统网络协议与新型内容获取方式之间的规则适配问题。

事件起源:隐蔽爬取行为指控
2025年8月,Cloudflare通过技术博客披露,Perplexity在获取网页内容时存在"规避爬取指令"的行为。据其发布的测试数据,当网站通过robots.txt文件(互联网行业通用的爬虫控制协议)明确禁止爬取时,Perplexity会切换至"隐蔽爬取"模式。该模式具体表现为:模拟普通浏览器用户代理标识、频繁更换IP地址、绕过robots.txt限制等特征。Cloudflare称其通过蜜罐网站实验证实,Perplexity能够回答基于被禁止访问页面内容的问题。

技术原理分歧
Perplexity在24小时内发布声明回应,强调其技术架构与传统搜索引擎存在本质差异。该公司解释称,其系统仅在用户发起查询时实时获取必要内容,这种"按需获取"机制更接近浏览器或邮件客户端的运作方式,而非预先大规模爬取网页的搜索引擎模式。外媒《Search Engine Land》分析指出,双方争议焦点在于对"爬虫"定义的认知差异——Perplexity主张其作为"代理型AI平台",应当适用不同于传统爬虫的监管框架。

行业规则重塑需求
公开资料显示,当前互联网工程任务组(IETF)制定的爬虫规范主要针对搜索引擎场景。Cloudflare在事件声明中呼吁,需通过国际标准组织建立适应AI技术特性的新协议体系。值得注意的是,2024年欧盟《数字服务法案》修订案已要求AI训练数据来源需符合"可追溯性"原则,但具体实施细则尚未覆盖实时内容获取场景。

企业应对措施进展
截至2025年8月中旬,Cloudflare表示已部署针对性防护措施阻断相关行为。该公司技术文档显示,其系统现在能识别并拦截具有特定行为特征的请求。Perplexity则重申将继续优化用户代理标识系统,但未透露具体技术调整方案。新媒网跨境注意到,这场争议恰逢美国联邦贸易委员会(FTC)启动对生成式AI数据来源合规性调查的敏感时期。
Crawling for AI search: Balancing access, control, and visibility

跨境服务商关注点
对于依赖全球流量的跨境电商、内容平台等企业而言,此次事件暴露出两个关键问题:其一,AI服务商的内容获取方式可能影响网站服务器负载与内容版权控制;其二,不同司法管辖区对AI训练数据的监管要求存在差异。公开信息显示,2025年第二季度全球约有37%的电商平台在robots.txt中设置了针对AI爬虫的特殊指令,较2024年同期增长210%。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/10648.html

评论(0)

暂无评论,快来抢沙发~
2025年Cloudflare与Perplexity就网络爬虫合规性问题产生争议,核心在于AI技术发展下,传统网络协议与新型内容获取方式的规则适配。Cloudflare指责Perplexity规避爬取指令,Perplexity则认为自身“按需获取”模式不同于传统爬虫。事件引发对AI数据监管及行业规则重塑的需求。
发布于 2025-08-05
查看人数 1480
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。