AI爬虫两极化!GPTBot骤降至12%,助理型覆盖破55%。

近日,全球网络托管服务提供商Hostinger发布了一项深度研究报告,揭示了当前AI爬虫与网站互动模式的显著变化。这项基于海量机器人请求数据的分析指出,用于AI模型训练的爬虫正面临日益增长的网站阻挡,而驱动AI搜索功能的助理型爬虫则在持续扩大其网络覆盖范围。这一趋势反映了网站运营者对不同类型AI爬虫采取的差异化策略,也预示着内容方与AI技术平台之间关系的新动向。
Hostinger团队此次研究共分析了来自超过500万个托管网站的667亿次机器人请求。数据采集时间涵盖三个独立的6天周期,旨在通过对匿名服务器日志的深入挖掘,准确描绘各类机器人,尤其是AI相关爬虫的活动轨迹。研究人员将机器人分类映射到AI.txt项目分类标准,以确保分析的严谨性与一致性。
训练型AI爬虫遭遇普遍阻挡
研究结果显示,旨在收集数据以训练大型语言模型的AI爬虫正面临网站方的强力抵制。其中,OpenAI的GPTBot作为典型的模型训练爬虫,在研究期间其网站覆盖率出现了断崖式下跌,从最初的84%骤降至12%。
在Hostinger的数据中,Meta公司的ExternalAgent在训练类别爬虫中占据了请求量榜首,但这一类别的爬虫整体呈现出最明显的下降趋势。Hostinger分析认为,这主要得益于越来越多的网站运营者选择主动屏蔽AI训练型爬虫。
这一发现与此前多项独立研究的结论高度吻合。外媒BuzzStream曾指出,79%的顶级新闻发布商已至少屏蔽一种训练型爬虫。同时,外媒Cloudflare发布的年度回顾报告也显示,GPTBot、ClaudeBot和CCBot在顶级域名中拥有数量最多的完全禁止指令。这些数据共同佐证了网站运营者正积极采取措施,限制AI训练型爬虫对其内容的抓取,即便这些爬虫的请求量仍然很高。新媒网跨境了解到,这种趋势的背后,是网站方对内容版权、数据安全以及服务器资源消耗等方面的深切考量。
助理型AI爬虫影响力持续扩张
与训练型爬虫境遇截然不同的是,为AI搜索工具提供支持的助理型爬虫正获得更广泛的访问权限。OpenAI的OAI-SearchBot,负责为ChatGPT的搜索功能获取内容,其平均网站覆盖率达到了55.67%。
同时,TikTok的爬虫覆盖率增至25.67%,期间产生了14亿次请求。苹果公司的爬虫也达到了24.33%的覆盖率。
这些助理型爬虫通常由用户触发,具有更强的目标性。它们直接服务于用户,而非单纯收集训练数据。这种功能上的差异,被认为是网站运营者对待它们采取不同策略的关键原因。对于希望在AI搜索结果中获得曝光的网站而言,允许这类爬虫的访问,可能意味着新的流量入口和内容发现途径。
传统搜索引擎爬虫保持稳定态势
在全球AI爬虫生态发生剧烈变化的背景下,传统搜索引擎爬虫的活动轨迹则显得相对稳定。Googlebot在整个研究期间保持了72%的平均覆盖率,并产生了147亿次请求。微软Bingbot的覆盖率也稳定在57.67%。
这种稳定性与AI类别爬虫的变化形成了鲜明对比。谷歌作为主要的搜索引擎,其核心爬虫(Googlebot)的地位独特,因为它直接关联到网站在搜索结果中的可见性。网站运营者通常不会轻易阻止Googlebot,因为这会直接影响其在传统搜索领域的曝光。
SEO工具爬虫覆盖率有所下滑
Hostinger的研究还发现,SEO和营销类爬虫的覆盖率呈现下降趋势。尽管Ahrefs仍保持了60%的最大覆盖范围,但整个类别的数据表现出萎缩。
Hostinger将这一现象归因于两个主要因素:首先,这些工具的关注点越来越集中于那些积极开展SEO工作的网站;其次,部分网站所有者为了节省服务器资源,选择性地屏蔽了资源消耗较大的爬虫。此前,外媒Vercel的数据便已显示,GPTBot在一个月内产生了5.69亿次请求,对于一些发布商而言,由此产生的带宽成本已成为一个不容忽视的业务问题。
数据背后的深层原因与行业洞察
Hostinger的这项研究数据,进一步证实了过去一年中日益清晰的行业模式:网站运营者正在划清界限,明确区分他们允许访问和拒绝访问的AI爬虫。
这一决策的核心在于爬虫的功能定位。训练型爬虫主要用于收集内容以改进模型,但通常不会直接为网站带来回流流量。而助理型爬虫则通过抓取内容来回答用户的特定问题,这意味着它们能够将网站内容呈现在AI搜索结果中,从而带来潜在的用户发现和流量。
新媒网跨境认为,网站运营者对不同类型AI爬虫采取差异化策略,是其在保护自身内容资产、控制服务器资源消耗与争取新流量入口之间寻求平衡的表现。这种精细化管理反映了数字内容生态对AI技术应用的适应与博弈。
展望与应对策略
基于当前趋势,Hostinger建议网站运营者可以采取一种“中庸之道”:即屏蔽训练型爬虫,但允许驱动内容发现的助理型爬虫。这样做既能避免为AI模型无偿提供训练数据,又能确保内容在AI搜索环境中获得曝光。
OpenAI的官方指南也推荐,如果网站希望出现在ChatGPT的搜索结果中,即使选择屏蔽GPTBot,也应允许OAI-SearchBot的访问。OpenAI明确区分了OAI-SearchBot和ChatGPT-User的功能。OAI-SearchBot负责控制内容是否被纳入ChatGPT的搜索结果,并且它遵守robots.txt协议。而ChatGPT-User则处理用户发起的浏览请求,其是否受robots.txt的约束可能存在差异。
Hostinger建议网站运营者应定期检查服务器日志,了解实际访问其网站的爬虫类型,然后根据自身目标做出相应的屏蔽决策。如果网站面临服务器负载问题,可以考虑在CDN层面实施更高效的屏蔽措施。
为了有效提升在AI时代的可见性,网站方应主动审视当前的AI爬虫用户代理列表,并有策略地仅允许那些符合自身发展战略的特定爬虫进行抓取。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-crawlers-split-gptbot-12-search-ai-55.html


粤公网安备 44011302004783号 











