紧急预警!AI恶意爬取规避robots.txt协议,日均百万次违规请求?

2025-08-05人工智能

Image

以下是根据要求改写的跨境行业资讯内容,采用专业客观的第三方叙事视角,符合公众号文章规范:


互联网基础设施服务商Cloudflare于2025年6月发布研究报告称,人工智能初创企业Perplexity存在违规爬取网站数据行为。据新媒网跨境获悉,该企业被指控通过技术手段规避网站设置的防爬取协议,访问了数万个明确声明禁止AI抓取的域名。

技术规避手段细节披露
根据Cloudflare工程师的监测,Perplexity爬虫系统自2025年第二季度起采用双重规避策略:一方面修改用户代理(User Agent)标识伪装成谷歌Chrome浏览器,另一方面频繁更换自治系统编号(ASN,即标识互联网大型网络的编码体系)。这些技术操作使目标网站无法识别爬虫真实来源,日均触发数百万次违规请求。监测数据来源于机器学习模型与网络信号的双重验证。

涉事企业回应与反指控
面对技术指控,Perplexity发言人Jesse Dwyer通过邮件向美国科技媒体TechCrunch表示,Cloudflare的研究报告实质是"销售推广行为",并否认截图证据显示的内容访问事实。在后续声明中,该发言人进一步辩称涉事爬虫"不属于Perplexity系统"。新媒网跨境注意到,此番争议源于Cloudflare客户投诉——尽管这些客户已在Robots.txt文件(网站用于声明爬虫权限的标准协议)中明确禁止Perplexity已知爬虫,仍持续遭遇数据抓取。

行业反爬措施持续升级
Cloudflare于2024年推出免费防爬工具后,2025年第二季度再次升级防护体系:已将Perplexity爬虫移出认证名单,并部署新技术阻断其访问。此前在2025年5月,该企业推出商业化解决方案,允许网站主向AI数据抓取方收取内容使用费。公司CEO马修·普林斯(Matthew Prince)曾公开指出,AI数据抓取行为正在冲击互联网内容出版业的商业模式。

历史争议事件回溯
这并非Perplexity首次陷入数据合规争议。2024年期间,包括美国《连线》杂志(Wired)在内的多家媒体指控其存在内容剽窃行为。同年TechCrunch Disrupt 2024大会上,首席执行官阿拉温德·斯里尼瓦斯(Aravind Srinivas)接受采访时,未能立即回应关于公司剽窃界定标准的核心质询。
Cloudflare公布的爬虫行为监测示意图

新媒网跨境观察到,当前全球范围内对AI训练数据来源合法性的监管争议持续发酵。本次技术争议涉及的基础协议合规问题,或将对跨境数据流通标准产生示范效应。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/10109.html

评论(0)

暂无评论,快来抢沙发~
Cloudflare报告指出,AI初创企业Perplexity涉嫌违规爬取网站数据,采用技术手段规避反爬协议。Perplexity否认指控,称其为Cloudflare的推广行为。该事件引发了关于AI数据合规性以及互联网内容商业模式的讨论,或将对跨境数据流通产生示范效应。
发布于 2025-08-05
查看人数 450
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。