Perplexity爬虫违规抓取,Cloudflare重拳封禁!数据合规红线不容触碰

2025-08-05AI自主智能体

Image

2025年8月,全球知名网络安全服务商Cloudflare宣布将人工智能公司Perplexity的爬虫程序移出"已验证机器人"白名单,并全面封禁其所有隐身爬虫对网站的抓取行为。新媒网跨境获悉,这一决定源于Cloudflare对用户投诉的深入调查,发现Perplexity存在系统性规避网络协议的行为。
图片说明

违规行为触发技术审查

根据Cloudflare官方声明,2025年第二季度以来,该公司收到多起用户投诉,指控Perplexity爬虫违反robots.txt协议。该协议作为互联网行业通行标准,允许网站主通过文本文件声明哪些内容允许或禁止网络爬虫抓取。Cloudflare技术团队经核查发现,Perplexity不仅未遵守该协议,还采用多种技术手段规避监管。

双重隐身策略曝光

调查显示,Perplexity主要采用两种技术手段突破访问限制。首先是IP地址轮换技术,其爬虫程序通过切换不同自治系统号(ASN)下的IP地址实现隐身。ASN作为互联网基础设施的重要组成部分,为特定IP地址群提供唯一标识编号。Perplexity在官方申报的ASN之外,使用未申报的IP地址进行数据抓取。

其次是用户代理伪造行为。Cloudflare监测到,当遭遇封禁时,Perplexity爬虫会将身份标识从"PerplexityBot"等官方用户代理,伪装成Mac系统下Chrome 124浏览器的访问请求。这种技术手段使得爬虫程序在网站服务器日志中呈现为普通用户访问记录。

验证机制与行业规范

Cloudflare的"已验证机器人"计划旨在为合规爬虫建立信任机制。加入该计划的爬虫需满足三项核心条件:公开透明声明抓取目的、执行特定类型活动、严格遵守网站主设置的访问规则。新媒网跨境了解到,该计划覆盖Googlebot、Bingbot等主流搜索引擎爬虫,通过技术验证确保其遵守robots.txt协议。

技术治理措施升级

在确认违规事实后,Cloudflare采取双重应对措施:立即将Perplexity移出白名单,同时在网络防护规则中新增针对性拦截机制。Cloudflare首席技术官在声明中强调:"互联网三十年发展历程证明,信任是数字生态的基石。任何抓取行为必须尊重网站主的核心权益。"

数据合规性启示

此次事件引发行业对数据抓取合规性的关注。根据外媒披露的行业数据显示,2024年全球网络爬虫流量中约17%存在协议违规行为。新媒网跨境注意到,随着欧盟《数字服务法案》、中国《数据安全法》等法规的深入实施,技术企业正面临更严格的数据治理要求。

对于使用Cloudflare服务的网站管理员,技术团队建议通过控制面板检查当前拦截设置。若需允许Perplexity抓取特定内容,需手动调整相关规则。但行业专家提醒,此类操作可能带来数据安全风险,需谨慎评估。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/10220.html

评论(0)

暂无评论,快来抢沙发~
Cloudflare在2025年8月封禁了Perplexity的隐身爬虫,原因是其违反robots.txt协议并伪造用户代理。Cloudflare已将其从“已验证机器人”白名单中移除,并采取措施阻止其访问。此次事件引发了对数据抓取合规性的关注,并促使企业加强数据治理。
发布于 2025-08-05
查看人数 350
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。