紧急预警!AI恶意爬取规避robots.txt协议,日均百万次违规请求?
以下是根据要求改写的跨境行业资讯内容,采用专业客观的第三方叙事视角,符合公众号文章规范:
互联网基础设施服务商Cloudflare于2025年6月发布研究报告称,人工智能初创企业Perplexity存在违规爬取网站数据行为。据新媒网跨境获悉,该企业被指控通过技术手段规避网站设置的防爬取协议,访问了数万个明确声明禁止AI抓取的域名。
技术规避手段细节披露
根据Cloudflare工程师的监测,Perplexity爬虫系统自2025年第二季度起采用双重规避策略:一方面修改用户代理(User Agent)标识伪装成谷歌Chrome浏览器,另一方面频繁更换自治系统编号(ASN,即标识互联网大型网络的编码体系)。这些技术操作使目标网站无法识别爬虫真实来源,日均触发数百万次违规请求。监测数据来源于机器学习模型与网络信号的双重验证。
涉事企业回应与反指控
面对技术指控,Perplexity发言人Jesse Dwyer通过邮件向美国科技媒体TechCrunch表示,Cloudflare的研究报告实质是"销售推广行为",并否认截图证据显示的内容访问事实。在后续声明中,该发言人进一步辩称涉事爬虫"不属于Perplexity系统"。新媒网跨境注意到,此番争议源于Cloudflare客户投诉——尽管这些客户已在Robots.txt文件(网站用于声明爬虫权限的标准协议)中明确禁止Perplexity已知爬虫,仍持续遭遇数据抓取。
行业反爬措施持续升级
Cloudflare于2024年推出免费防爬工具后,2025年第二季度再次升级防护体系:已将Perplexity爬虫移出认证名单,并部署新技术阻断其访问。此前在2025年5月,该企业推出商业化解决方案,允许网站主向AI数据抓取方收取内容使用费。公司CEO马修·普林斯(Matthew Prince)曾公开指出,AI数据抓取行为正在冲击互联网内容出版业的商业模式。
历史争议事件回溯
这并非Perplexity首次陷入数据合规争议。2024年期间,包括美国《连线》杂志(Wired)在内的多家媒体指控其存在内容剽窃行为。同年TechCrunch Disrupt 2024大会上,首席执行官阿拉温德·斯里尼瓦斯(Aravind Srinivas)接受采访时,未能立即回应关于公司剽窃界定标准的核心质询。
新媒网跨境观察到,当前全球范围内对AI训练数据来源合法性的监管争议持续发酵。本次技术争议涉及的基础协议合规问题,或将对跨境数据流通标准产生示范效应。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)