Cloudflare报告:Googlebot超4.5%!AI爬虫霸主揭晓。

2025-12-15AI工具

Cloudflare报告:Googlebot超4.5%!AI爬虫霸主揭晓。

Cloudflare发布的2025年度回顾报告,对全球互联网流量、安全状况以及人工智能(AI)爬虫活动进行了全面分析。该报告基于Cloudflare覆盖全球125个国家、330多个城市的网络数据,其网络平均每秒处理超过8100万次HTTP请求。报告中的一项关键发现是,Googlebot的爬取页面数量远超其他AI爬虫,这反映了谷歌在搜索索引和AI模型训练方面的双重战略。
Cloudflare报告:Googlebot主导AI爬虫流量

AI爬虫流量格局:Googlebot的显著优势

Cloudflare的分析聚焦于2025年10月至11月期间,主要AI爬虫对HTML内容的成功请求。数据显示,Googlebot在样本中访问了11.6%的独立网页,这一比例是OpenAI旗下GPTBot(3.6%)的三倍多。更值得关注的是,Googlebot的爬取量是PerplexityBot(仅0.06%)的近200倍。微软Bingbot以2.6%位居第三,紧随其后的是Meta-ExternalAgent和ClaudeBot,两者均为2.4%。

报告特别指出,由于Googlebot同时用于内容搜索索引和AI模型训练,这给网站发布者带来了复杂决策。如果网站运营商选择阻止Googlebot进行AI训练,则可能面临影响其内容在搜索引擎中可见度的风险。

Cloudflare对此情况的描述是:“由于Googlebot同时用于内容搜索索引和AI模型训练,并且考虑到谷歌在搜索领域长期以来的主导地位,网站运营商实际上无法在不影响搜索可见性的前提下,阻止Googlebot进行AI训练。”这一表述揭示了当前数字生态中,内容所有者在AI时代所面临的独特两难境地。

AI机器人对HTML请求总量的影响

在2025年全年,排除Googlebot之外的AI机器人平均占Cloudflare客户群HTML请求总量的4.2%。这一份额在4月初波动至2.4%,并在6月底达到峰值6.4%。值得注意的是,仅Googlebot一项就占到了HTML请求的4.5%,略高于所有其他AI机器人请求的总和。

报告还呈现了人类生成HTML流量与非AI机器人生成HTML流量的动态变化。2025年初,人类生成流量比非AI机器人流量低七个百分点。然而,到9月,人类流量在某些天数开始超过非AI机器人流量。截至12月2日,人类生成了47%的HTML请求,而非AI机器人生成了44%。这种趋势的变化,在一定程度上反映了网络内容的消费模式和自动化流量的构成正在发生演变。

爬取与引荐比率的差异:平台策略的体现

新媒网跨境获悉,Cloudflare还跟踪了AI及搜索平台向网站引荐流量的频率与其爬取网站内容的频率之间的比率。较高的比率通常意味着平台大量爬取内容,但较少将用户引荐回源网站。

在AI平台中,Anthropic的引荐比率最高,在下半年从早期的波动中稳定下来后,大致保持在25,000:1至100,000:1之间。OpenAI的比率在3月曾高达3,700:1。相比之下,Perplexity在主要AI平台中保持了最低的比率,通常低于400:1,从9月起更是低于200:1。

作为对比,谷歌搜索的爬取与引荐比率则要低得多,全年大致在3:1至30:1之间波动。这些数据表明,不同AI平台和传统搜索引擎在内容利用和流量回馈方面存在显著差异,这对内容发布商的流量获取策略具有重要的参考价值。对于希望通过内容吸引用户访问的网站而言,了解这些比率有助于评估不同平台的潜在价值。

用户行为驱动型爬虫的崛起

报告还揭示了“用户行为”驱动型爬虫的显著增长。这类爬虫是指机器人响应用户向聊天机器人提出的问题而访问网站。2025年,此类爬虫的流量增长速度最快,从1月到12月初增长了超过15倍。

这一趋势与OpenAI的ChatGPT-User机器人流量模式高度吻合,该机器人会在用户向ChatGPT提问时访问相关网页。从2月中旬开始,其增长呈现出明显的每周使用模式,这可能表明其在学校和工作场所的使用有所增加。而在6月至8月期间,由于学生放假和专业人士休假,其活动量有所下降。这种增长模式预示着未来AI内容获取可能更加依赖用户的即时查询。

robots.txt中的AI爬虫阻断策略

Cloudflare对近3,900个顶级域名(排名前10,000位)的robots.txt文件进行了分析。结果显示,AI爬虫是网站管理员最常阻止的用户代理。GPTBot、ClaudeBot和CCBot拥有最多的完全禁止指令,这意味着这些爬虫被指示不得访问整个网站。

然而,Googlebot和Bingbot的禁止指令模式则有所不同。它们的主要禁止指令更倾向于部分阻止,可能集中于登录入口和非内容区域,而非完全阻止整个站点。这种策略差异表明,网站运营商在管理不同类型爬虫时,会根据其对网站功能和可见性的影响采取不同的精细化策略。

网络安全态势:公民社会组织成为攻击首要目标

2025年首次出现的情况是,“人民与社会”类别的组织成为网络攻击最频繁的目标。这一类别包括宗教机构、非营利组织、公民组织和图书馆等。该行业在全球已缓解流量中所占比例从年初的不到2%上升至4.4%,并在3月底跃升至超过17%,于7月初达到23.2%的峰值。许多此类组织受到了Cloudflare的Project Galileo的保护。

相比之下,2024年最受攻击的博彩和游戏行业,其攻击份额下降了一半以上,降至2.6%。这一转变提示,网络攻击的焦点正在发生变化,公民社会组织作为社会基础设施的重要组成部分,其网络安全防护面临日益严峻的考验。

其他关键发现综述

Cloudflare的报告还包含了流量、安全和连接性方面的其他重要发现:

  • 全球互联网流量增长:全球互联网流量同比增长19%。在4月中旬之前,流量增长相对平稳,但在8月中旬之后显著加速。
  • 后量子加密技术应用:目前,高达52%的人类流量通过后量子加密技术连接至Cloudflare,比年初的29%几乎翻了一番。
  • 生成式AI服务榜单:ChatGPT仍然是全球领先的生成式AI服务。谷歌的Gemini、Windsurf AI、Grok/xAI和DeepSeek是新晋进入前十的平台。
  • 星链(Starlink)流量增长:星链的流量在2025年翻了一番,其服务已在20多个新国家推出。
  • 互联网中断原因:在全球观察到的174起主要互联网中断事件中,近一半是由政府指令造成的。电缆中断事件减少了近50%,而电力故障导致的中断事件则增加了一倍。
  • 互联网质量排名:欧洲国家在互联网质量指标上占据主导地位。西班牙在整体互联网质量方面位居榜首,平均下载速度超过300 Mbps。

行业深思:报告启示与未来展望

Cloudflare的这份年度报告为我们理解当前复杂的网络环境提供了宝贵视角。AI爬虫数据的揭示,特别是Googlebot的双重角色,对网站内容策略和数字营销影响深远。网站运营者需要在保持搜索引擎可见性与管理AI模型训练数据利用之间找到平衡点。同时,新媒网跨境了解到,爬取与引荐比率的巨大差异也提醒内容发布者,不能简单地将所有AI爬虫视为同等价值的流量来源,需审慎评估不同平台带来的实际用户回流。

此外,“用户行为”驱动型爬虫的快速增长,预示着AI在信息获取和用户交互方式上的进一步深化。这不仅影响着内容创作和分发模式,也可能重塑用户与互联网的互动体验。

网络安全方面,公民社会组织成为攻击首要目标的变化,凸显了网络威胁的多样性和动态性。这些机构往往资源有限,但其信息和数据对社会至关重要,因此需要获得更多关注和保护。

展望未来,Cloudflare预计AI相关的各项指标将随着技术的不断演进而持续变化。公司已在今年的报告中新增了多个AI相关数据集,以捕捉这一快速发展领域的动态。爬取与引荐比率可能会随着AI平台调整其搜索功能和引荐行为而发生变化。OpenAI的比率在一年中已呈现下降趋势,这与ChatGPT搜索功能的普及有关。对于robots.txt的管理,数据表明大多数发布者倾向于对主要的搜索引擎爬虫进行部分阻止,而对纯AI爬虫则采取全面阻止的策略。这些指令的年末状态,为我们跟踪2026年发布者策略的演变提供了一个基线。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/cloudflare-report-googlebot-dominates-4-5-ai.html

评论(0)
暂无评论,快来抢沙发~
Cloudflare's 2025 report analyzes internet traffic, security, and AI crawler activity. Googlebot dominates AI crawler traffic, posing a dilemma for websites balancing search visibility and AI training data. Citizen organizations are now primary targets for cyberattacks.
发布于 2025-12-15
查看人数 159
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。