AI爬虫两极化！GPTBot骤降至12%，助理型覆盖破55%。

近日，全球网络托管服务提供商Hostinger发布了一项深度研究报告，揭示了当前AI爬虫与网站互动模式的显著变化。这项基于海量机器人请求数据的分析指出，用于AI模型训练的爬虫正面临日益增长的网站阻挡，而驱动AI搜索功能的助理型爬虫则在持续扩大其网络覆盖范围。这一趋势反映了网站运营者对不同类型AI爬虫采取的差异化策略，也预示着内容方与AI技术平台之间关系的新动向。

Hostinger团队此次研究共分析了来自超过500万个托管网站的667亿次机器人请求。数据采集时间涵盖三个独立的6天周期，旨在通过对匿名服务器日志的深入挖掘，准确描绘各类机器人，尤其是AI相关爬虫的活动轨迹。研究人员将机器人分类映射到AI.txt项目分类标准，以确保分析的严谨性与一致性。
OpenAI Search Crawler Passes 55% Coverage In Hostinger Study

训练型AI爬虫遭遇普遍阻挡

研究结果显示，旨在收集数据以训练大型语言模型的AI爬虫正面临网站方的强力抵制。其中，OpenAI的GPTBot作为典型的模型训练爬虫，在研究期间其网站覆盖率出现了断崖式下跌，从最初的84%骤降至12%。

在Hostinger的数据中，Meta公司的ExternalAgent在训练类别爬虫中占据了请求量榜首，但这一类别的爬虫整体呈现出最明显的下降趋势。Hostinger分析认为，这主要得益于越来越多的网站运营者选择主动屏蔽AI训练型爬虫。

这一发现与此前多项独立研究的结论高度吻合。外媒BuzzStream曾指出，79%的顶级新闻发布商已至少屏蔽一种训练型爬虫。同时，外媒Cloudflare发布的年度回顾报告也显示，GPTBot、ClaudeBot和CCBot在顶级域名中拥有数量最多的完全禁止指令。这些数据共同佐证了网站运营者正积极采取措施，限制AI训练型爬虫对其内容的抓取，即便这些爬虫的请求量仍然很高。新媒网跨境了解到，这种趋势的背后，是网站方对内容版权、数据安全以及服务器资源消耗等方面的深切考量。

助理型AI爬虫影响力持续扩张

与训练型爬虫境遇截然不同的是，为AI搜索工具提供支持的助理型爬虫正获得更广泛的访问权限。OpenAI的OAI-SearchBot，负责为ChatGPT的搜索功能获取内容，其平均网站覆盖率达到了55.67%。

同时，TikTok的爬虫覆盖率增至25.67%，期间产生了14亿次请求。苹果公司的爬虫也达到了24.33%的覆盖率。

这些助理型爬虫通常由用户触发，具有更强的目标性。它们直接服务于用户，而非单纯收集训练数据。这种功能上的差异，被认为是网站运营者对待它们采取不同策略的关键原因。对于希望在AI搜索结果中获得曝光的网站而言，允许这类爬虫的访问，可能意味着新的流量入口和内容发现途径。

传统搜索引擎爬虫保持稳定态势

在全球AI爬虫生态发生剧烈变化的背景下，传统搜索引擎爬虫的活动轨迹则显得相对稳定。Googlebot在整个研究期间保持了72%的平均覆盖率，并产生了147亿次请求。微软Bingbot的覆盖率也稳定在57.67%。

这种稳定性与AI类别爬虫的变化形成了鲜明对比。谷歌作为主要的搜索引擎，其核心爬虫（Googlebot）的地位独特，因为它直接关联到网站在搜索结果中的可见性。网站运营者通常不会轻易阻止Googlebot，因为这会直接影响其在传统搜索领域的曝光。

SEO工具爬虫覆盖率有所下滑

Hostinger的研究还发现，SEO和营销类爬虫的覆盖率呈现下降趋势。尽管Ahrefs仍保持了60%的最大覆盖范围，但整个类别的数据表现出萎缩。

Hostinger将这一现象归因于两个主要因素：首先，这些工具的关注点越来越集中于那些积极开展SEO工作的网站；其次，部分网站所有者为了节省服务器资源，选择性地屏蔽了资源消耗较大的爬虫。此前，外媒Vercel的数据便已显示，GPTBot在一个月内产生了5.69亿次请求，对于一些发布商而言，由此产生的带宽成本已成为一个不容忽视的业务问题。

数据背后的深层原因与行业洞察

Hostinger的这项研究数据，进一步证实了过去一年中日益清晰的行业模式：网站运营者正在划清界限，明确区分他们允许访问和拒绝访问的AI爬虫。

这一决策的核心在于爬虫的功能定位。训练型爬虫主要用于收集内容以改进模型，但通常不会直接为网站带来回流流量。而助理型爬虫则通过抓取内容来回答用户的特定问题，这意味着它们能够将网站内容呈现在AI搜索结果中，从而带来潜在的用户发现和流量。

新媒网跨境认为，网站运营者对不同类型AI爬虫采取差异化策略，是其在保护自身内容资产、控制服务器资源消耗与争取新流量入口之间寻求平衡的表现。这种精细化管理反映了数字内容生态对AI技术应用的适应与博弈。

展望与应对策略

基于当前趋势，Hostinger建议网站运营者可以采取一种“中庸之道”：即屏蔽训练型爬虫，但允许驱动内容发现的助理型爬虫。这样做既能避免为AI模型无偿提供训练数据，又能确保内容在AI搜索环境中获得曝光。

OpenAI的官方指南也推荐，如果网站希望出现在ChatGPT的搜索结果中，即使选择屏蔽GPTBot，也应允许OAI-SearchBot的访问。OpenAI明确区分了OAI-SearchBot和ChatGPT-User的功能。OAI-SearchBot负责控制内容是否被纳入ChatGPT的搜索结果，并且它遵守robots.txt协议。而ChatGPT-User则处理用户发起的浏览请求，其是否受robots.txt的约束可能存在差异。

Hostinger建议网站运营者应定期检查服务器日志，了解实际访问其网站的爬虫类型，然后根据自身目标做出相应的屏蔽决策。如果网站面临服务器负载问题，可以考虑在CDN层面实施更高效的屏蔽措施。

为了有效提升在AI时代的可见性，网站方应主动审视当前的AI爬虫用户代理列表，并有策略地仅允许那些符合自身发展战略的特定爬虫进行抓取。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/ai-crawlers-split-gptbot-12-search-ai-55.html