2025年第二季度，全球互联网基础设施服务商Cloudflare与AI问答引擎Perplexity围绕网络爬虫合规性的公开交锋引发跨境数字服务行业高度关注。新媒网跨境获悉，这场争议的核心在于AI技术快速发展背景下，传统网络协议与新型内容获取方式之间的规则适配问题。

事件起源：隐蔽爬取行为指控
2025年8月，Cloudflare通过技术博客披露，Perplexity在获取网页内容时存在"规避爬取指令"的行为。据其发布的测试数据，当网站通过robots.txt文件（互联网行业通用的爬虫控制协议）明确禁止爬取时，Perplexity会切换至"隐蔽爬取"模式。该模式具体表现为：模拟普通浏览器用户代理标识、频繁更换IP地址、绕过robots.txt限制等特征。Cloudflare称其通过蜜罐网站实验证实，Perplexity能够回答基于被禁止访问页面内容的问题。

技术原理分歧
Perplexity在24小时内发布声明回应，强调其技术架构与传统搜索引擎存在本质差异。该公司解释称，其系统仅在用户发起查询时实时获取必要内容，这种"按需获取"机制更接近浏览器或邮件客户端的运作方式，而非预先大规模爬取网页的搜索引擎模式。外媒《Search Engine Land》分析指出，双方争议焦点在于对"爬虫"定义的认知差异——Perplexity主张其作为"代理型AI平台"，应当适用不同于传统爬虫的监管框架。

行业规则重塑需求
公开资料显示，当前互联网工程任务组（IETF）制定的爬虫规范主要针对搜索引擎场景。Cloudflare在事件声明中呼吁，需通过国际标准组织建立适应AI技术特性的新协议体系。值得注意的是，2024年欧盟《数字服务法案》修订案已要求AI训练数据来源需符合"可追溯性"原则，但具体实施细则尚未覆盖实时内容获取场景。

企业应对措施进展
截至2025年8月中旬，Cloudflare表示已部署针对性防护措施阻断相关行为。该公司技术文档显示，其系统现在能识别并拦截具有特定行为特征的请求。Perplexity则重申将继续优化用户代理标识系统，但未透露具体技术调整方案。新媒网跨境注意到，这场争议恰逢美国联邦贸易委员会（FTC）启动对生成式AI数据来源合规性调查的敏感时期。
Crawling for AI search: Balancing access, control, and visibility

跨境服务商关注点
对于依赖全球流量的跨境电商、内容平台等企业而言，此次事件暴露出两个关键问题：其一，AI服务商的内容获取方式可能影响网站服务器负载与内容版权控制；其二，不同司法管辖区对AI训练数据的监管要求存在差异。公开信息显示，2025年第二季度全球约有37%的电商平台在robots.txt中设置了针对AI爬虫的特殊指令，较2024年同期增长210%。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/10648.html

Media

电商预警!AI爬虫争议引爆版权风险，超37%平台已设防

评论（0）