紧急预警!Google爬虫请求骤降90%!速查429/500状态码,避免流量损失。
在最近Reddit上的一个帖子引发了关注,讨论了关于Google爬虫频率急剧下降的问题。Google的约翰·穆勒对此进行了回应和指导。穆勒建议,这种突然的下降通常表明存在429/500/503状态码或超时,而不是404错误。
事件概述
根据Reddit的讨论,原帖主描述在部署破损的hreflang URL到HTTP头时,其网站的爬虫请求在24小时内下降了约90%。这些hreflang URL在Googlebot尝试获取时返回了404错误。帖子中提到:
“上周,一个部署错误导致了链接: HTTP头部跨全站错误添加了破损的hreflang URLs:Googlebot立即爬取这些链接→全部返回严重的404错误。在24小时内,爬取请求下降了约90%。虽然已索引页面稳定,但爬取量尚未恢复。”
穆勒的解读
穆勒对这种快速下降是否单由404错误引起表示怀疑,他认为与服务器端问题更为相关。他的回复指出:
“我只有在返回429 / 500 / 503 / 超时时才预料到爬取速率会这么快地反应,所以我会仔细检查实际发生了什么(404错误通常是安全的,一旦被发现,Googlebot会再尝试爬取它们)。
例如,如果是CDN实际上阻止了Googlebot,那么你需要确保这一问题已经解决。
一旦服务器端问题缓和,爬取速率将自动恢复正常。(没有具体时间,而且凭直觉——我不确定是否适用于这里——快速降低爬取速率理解为解决立即问题,而谨慎增加爬取速率则有道理)。”
这与Google关于控制爬虫的已有指南相符。如果你需要短时间内限制爬虫,Google建议返回500、503或429状态响应。403/404状态并不适用于此目的。
详细信息可查看Google关于降低爬虫频率的指导。
推荐行动
当爬虫请求突然下降时,验证在该时间窗口你的服务器和CDN返回给Googlebot的内容:
- 检查日志和搜索控制台的爬虫统计数据,寻找429/500/503状态或超时的峰值。
- 确认CDN、WAF或速率限制器没有阻止Googlebot。
- 确认报告的404错误是否是主要信号,而非偶然。
需要记住,恢复并不是立即的。穆勒表明,在服务器端问题解决后,爬虫速率会自动恢复正常,但没有固定的时间表。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)