谷歌“萤火虫”出鞘:海量低质内容网站全站降级!

在当今这个信息爆炸的时代,互联网内容生态正经历着前所未有的变革。随着人工智能技术的飞速发展,内容创作的门槛似乎被大幅降低,这既带来了效率的提升,也使得“海量低质内容”的问题日益凸显。对于广大创作者和运营者而言,如何在这种复杂多变的环境中脱颖而出,提供真正有价值的内容,成为了一个核心命题。
新媒网跨境获悉,近日,业内关于谷歌搜索排名机制的一些内部信息引发了广泛关注。这些信息揭示了谷歌如何通过一套名为“萤火虫”(Firefly)的系统,来识别和处理“规模化内容滥用”行为。这对于我们理解未来搜索趋势,以及如何构建高质量网站具有重要的指导意义。
多年来,我们对搜索引擎优化(SEO)的探索,就像是试图逆向工程一个“黑箱”。各种策略的制定,往往基于数据关联、经验观察以及对公开指南的谨慎解读。然而,随着生成式人工智能的日益成熟,尤其是2024年3月谷歌核心算法更新的同时,一份据称是谷歌内部内容数据仓库API文档的信息浮出水面,这无疑为SEO行业带来了理解其排名系统架构的全新视角。这份信息,并非简单的猜测,而是让我们第一次有机会深入了解谷歌评估内容质量的底层逻辑,将SEO实践从推断的艺术推向了架构对齐的科学。
此次浮出水面的核心,是名为“QualityCopiaFireflySiteSignal”的协议缓冲区(protobuf)定义。它被认为是谷歌近期“规模化内容滥用”政策的关键执行机制。这项政策,是对此前“垃圾自动生成内容”指南的升级,其关注点从内容的创作方式,转移到了大规模发布内容的意图和最终效果。这份浮出水面的文档,主要包含了协议缓冲区(protobuf)的属性定义。它们并非直接的评分函数或算法本身,而是结构化的数据容器,是谷歌各种排名和降级系统访问和处理信息的基础蓝图。理解这些数据结构,就像建筑师研究建筑的基础一样,能够揭示整个大厦的构建原则。新媒网跨境了解到,这份分析将基于此前业内对谷歌质量评估框架其他关键组件的解构,如QualityNsrPQData模型和contentEffort属性,进一步深入。本文旨在将高级别的“规模化滥用”政策,与似乎旨在检测此问题的特定网站级数据结构连接起来。我们将细致解读这些信息,追溯谷歌理念的演变,并为在这个“架构透明”的新时代中蓬勃发展提供战略指引。
政策的演变:为何“规模”成为目标,而非工具
谷歌与低质量、操纵性内容的斗争,与搜索引擎本身的历史一样悠久,但其政策也在不断演变,以适应垃圾信息制造者不断变化的策略。当前政策的直接前身是“垃圾自动生成内容”政策。根据2024年初的定义,这项政策主要针对的是:“通过程序化方式生成,未能产出原创内容或未增加足够价值;其生成目的在于操纵搜索排名而非帮助用户的内容。”
这里的关键词是“程序化”。重点放在了内容的创作方法上。在那个时代,自动化内容通常很容易被识别为机器生成的乱码或拙劣的“伪原创”文本,这种政策是有效的。然而,随着复杂生成式人工智能的兴起,这种区别变得越来越模糊。现代人工智能可以生成语法正确、逻辑连贯的内容,通常与低水平的人工写作难以区分,这为垃圾信息制造者提供了一个可以迅速利用的灰色地带。
认识到这一点,谷歌于2024年3月更新了其垃圾信息政策,将该部分更名为“规模化内容滥用”。新的、不关注创作方法的定义范围更广:“当大量页面生成的主要目的在于操纵搜索排名而非帮助用户时。这种滥用行为通常侧重于创建大量对用户价值甚微或毫无价值的非原创内容,无论其创作方式如何。”
这是一项具有战略意义且必要的演变。它通过将关注点转移到两个永恒的垃圾信息指标上,使得这项政策能够应对任何新的内容生成技术:无益的结果(大量非原创内容)和操纵性意图(为了操纵搜索排名)。谷歌搜索联络员丹尼·沙利文对此哲学转变态度明确。他的评论显示,谷歌意识到SEO社区曾误解谷歌对人工智能的立场,认为任何看起来高质量的内容都是可接受的。沙利文澄清了事实:“……我们并不真正关心你如何制作这些规模化内容,无论是通过人工智能、自动化还是人工。这都会是一个问题。”
他还进一步提醒,不要采用一些人对“质量”的错误定义,指出人工智能擅长创建“读起来非常流畅的通用性内容”,但这些内容不一定提供独特的价值或原创性。这直接解决了人工智能被用来在网络上泛滥听起来合理但最终无益的内容的问题。
这项现代政策并非一项新发明,而是长期斗争的结晶。它呼应了谷歌网络垃圾团队前负责人马特·卡茨(Matt Cutts)的工作,他多年来一直与文章目录和操纵性客座博客网络等形式的规模化、低价值内容作斗争。卡茨始终警告不要使用任何纯粹为了获取链接或排名而产生“大量无用内容”的策略。核心原则——惩罚为机器而非人为创建的低投入内容——始终未变。“规模化内容滥用”政策,只是这一原则的最新、最强有力的阐述,并得到了谷歌搜索分析师约翰·穆勒(John Mueller)一贯建议的支持,即质量是一个全面的、网站范围内的考量,而不仅仅是页面级别的属性。
解读其名称:QualityCopiaFireflySiteSignal
“QualityCopiaFireflySiteSignal”——这个协议缓冲区(protobuf)的名称本身并非随意选择。在谷歌的工程文化中,命名惯例通常具有高度的描述性。对这个名称进行逐词分析,可以有力地揭示其功能。
- Quality(质量):这是其核心背景。这个信号是谷歌庞大质量评估生态系统的一部分。它直接关系到谷歌公开的目标——呈现高质量内容,以及在浮现的文档中随处可见的众多页面质量属性。这代表了系统在评判时的最高准则。
- Copia(丰盛):这可以说是最直接的证据。Copia在拉丁语中意为“丰富”、“充足”或“大量”。在一个旨在执行针对“规模化”滥用政策的系统背景下,这个词是完美契合的。它是针对政策明确打击的“过度数量”问题的架构标签。这提示我们,系统会特别关注内容的数量维度。
- Firefly(萤火虫):这是最富有想象力的部分。虽然没有明确的官方解释,但一个合理的推测是,它并非指某些知名的人工智能工具,而是指“萤火虫算法”。这是一种受自然启发、元启发式的方法,通过模拟萤火虫的闪烁行为来解决复杂的优化问题。这种算法非常适合一个旨在在庞大而嘈杂的网络索引数据集中,发现微弱的操纵信号(最“明亮”的萤火虫)的系统。它可能代表了一种智能的检测机制。
- SiteSignal(网站信号):这最后一个组成部分至关重要。它表明评估是在网站或域名层面进行聚合和应用的,而不仅仅是基于单个页面。这与政策关注“大量页面”的重点完全吻合,并证实了约翰·穆勒等谷歌代表长期以来建议,即谷歌会评估网站的整体质量。这也符合浮现的信息所揭示的更广泛架构,其中包括许多其他网站级别的指标,如siteAuthority(网站权威性)、siteFocusScore(网站焦点得分)和hostNSR(主机网络垃圾评分)。这表明谷歌正在寻找系统性的、全域名范围的规模化滥用模式,而不仅仅是惩罚单个低质量页面。
因此,这个名字本身就讲述了一个故事。它描述了一个通过寻找过度数量(Copia)模式,并利用复杂的(潜在的)启发式算法(Firefly)来识别滥用行为,从而评估网站整体质量(Quality,SiteSignal)的系统。它可能也在寻找优质内容。本文的重点将放在它如何识别规模化内容滥用上。
数据揭秘:萤火虫系统如何洞察网站行为
浮现的文档对这个模块的用途提供了一个简洁而有力的总结:“fireflySiteSignal – 包含用于萤火虫排名变化的网站信号信息。”这简短的一行字,确认了它在调整排名中的作用。协议缓冲区(protobuf)的定义随后提供了构成这个信号的确切数据点。这些是原始输入数据。通过分析每个属性,我们可以精确理解谷歌如何量化网站行为来检测规模化滥用。
以下是该系统衡量的一些关键数据指标:
- dailyClicks(每日点击量):网站平均每天从搜索结果中获得的点击总量。这反映了网站在搜索结果中的曝光度和用户的初步兴趣。
- dailyGoodClicks(每日有效点击量):dailyClicks的子集,这部分点击被谷歌认为是“有效”的,表明用户认为页面有用。它衡量了用户对内容的满意度。
- dataTimeSec(数据生成时间):指示此特定数据集生成的时间戳(以秒为单位)。
- firstBoostedTimeSec(首次提升时间):标记网站首次获得排名提升的时间戳。
- impressionsInBoostedPeriod(提升期间的展示量):网站在排名可能暂时提升的特定期间内获得的展示量计数。
- latestBylineDateSec(最新作者署名日期):谷歌从网站文章中提取的最新的作者署名发布日期。
- latestFirstseenSec(最新首次发现时间):谷歌爬虫最新发现此网站新页面的时间戳。
- numOfArticles8(高质量文章数量):根据内部评分系统(评分0.8或更高)识别出的高质量文章数量。这是衡量内容质量的重要指标。
- numOfArticlesByPeriods(按周期统计的高质量文章数量):一个列表,追踪连续30天周期内发现的新增高质量文章数量。
- numOfGamblingPages(赌博页面数量):特定计数器,用于计算网站上识别为与(至少)赌博相关的页面数量。
- numOfUrls(URL总数):谷歌已发现的该网站的唯一URL(页面)总数。这反映了网站的整体规模。
- numOfUrlsByPeriods(按周期统计的URL数量):一个列表,显示连续30天周期内发现的新增URL数量,追踪网站的增长速度。
- recentImpForQuotaSystem(配额系统的近期展示量):近期展示量衡量,专门用于管理谷歌内部系统资源(配额)。
- siteFp(网站指纹):一个独特的“网站指纹”(哈希值),作为网站在实验和内部分析中的一致ID。
- totalImpressions(总展示量):网站任何页面在搜索结果中向用户展示的总次数。
用户参与度与表现指标
这些属性衡量用户在谷歌搜索结果中与网站的互动方式,提供了关于规模化内容是否真正有用的真实信号。
- dailyClicks 和 dailyGoodClicks:这可能是最关键的用户参与度信号。dailyClicks 是来自搜索的原始点击次数,而 dailyGoodClicks 是谷歌认为成功的子集——意味着用户没有立即返回搜索结果。这直接来源于 NavBoost 系统。对于一个大规模发布内容的网站来说,这两个数字之间的比例至关重要。一个网站可能生成数千个页面,并通过关键词定位获得大量 dailyClicks,但如果内容无益,dailyGoodClicks 计数将不成比例地低。不良的比例是用户大规模不满意的一个强大数学信号。
- totalImpressions:这追踪网站页面在搜索结果中出现的频率。如果 totalImpressions 数很大,但点击率低,且 dailyGoodClicks 比例不佳,则表明该网站虽然针对许多查询,但未能满足用户意图。
- impressionsInBoostedPeriod 和 firstBoostedTimeSec:这些属性追踪网站何时获得了临时排名提升(例如,针对某个新闻事件)。一个反复尝试通过围绕热门话题发布大量低投入内容来利用临时提升的网站,可能会被这些指标标记。
- recentImpForQuotaSystem:这是衡量近期展示量,用于管理谷歌爬取和处理的内部资源。一个网站突然发布数千个新页面,导致展示量大幅激增,可能会触发资源配额,从而将该网站标记为潜在的垃圾信息源,进行进一步审查。
内容与索引指标
这些属性提供了网站内容生产规模和质量的量化衡量,直接解决了信号中“Copia”(丰富性)的方面。
- numOfUrls 和 numOfUrlsByPeriods:这是最直接的规模衡量标准。numOfUrls 是谷歌发现的页面总数。更重要的是,numOfUrlsByPeriods 追踪连续30天周期内新页面创建的速度。一个网站如果突然从每月创建10个新页面增加到10,000个,这个指标会显示出显著的飙升,这是规模化内容滥用的典型特征。
- numOfArticles8 和 numOfArticlesByPeriods:这些是原始URL计数的关键对立指标。numOfArticles8 统计被识别为高质量文章的页面(基于0.8或更高的内部评分)。这个分数可能来源于其他质量系统,例如 QualityNsrPQData 模型中的 contentEffort 属性,该属性使用大型语言模型(LLM)来估计页面投入的精力。一个网站可以发布大量URL,但如果 numOfArticles8 计数仍然很低,这清晰地表明规模化内容质量低下。numOfArticlesByPeriods 指标追踪高质量文章创建的速度,使系统能够区分一个正在进行真正、高投入内容扩展的网站,和一个从事规模化滥用行为的网站。
- numOfGamblingPages:这是一个特定的风险因素属性。出现大量与赌博相关的页面可能是审查的信号,特别是如果它出现在一个主要主题无关的网站上,这也会被标记为网站声誉滥用。这可能意味着该系统识别出了一系列需要特别关注的敏感内容类型。
时间戳与识别
这些属性提供了时间背景和唯一标识符,使系统能够随着时间推移追踪网站的行为。
- dataTimeSec:一个时间戳,指示数据集生成的时间,允许对网站行为进行历史分析。
- latestFirstseenSec 和 latestBylineDateSec:这些是新鲜度信号。latestFirstseenSec 追踪谷歌爬虫上次发现新页面的时间,而 latestBylineDateSec 是从文章中提取的最新的发布日期。这两个时间之间存在较大差异可能表明网站试图通过操纵署名日期来显得内容新鲜,而实际上并未添加真正的新内容。
- siteFp:一个独特的“网站指纹”或哈希值。这是一个关键的标识符,允许谷歌在不同系统和实验中一致地追踪一个网站,确保一个网站不能通过简单更改域名轻易摆脱负面声誉。
拨开迷雾:点击数据与谷歌的衡量标准
谷歌广泛使用点击数据,这通过 dailyGoodClicks 等属性和底层的 NavBoost 系统得到了证实。这与多年来谷歌代表公开声明形成了鲜明对比,他们一直淡化或否认将用户参与度信号作为直接排名因素。谷歌搜索联络员约翰·穆勒曾多次驳斥这种观点。他曾在一份声明中反对使用点击率(CTR)进行排名的可行性:“如果点击率是驱动搜索排名的因素,结果将充斥着点击诱饵。我并未看到这种情况发生。”在另一次交流中,他进一步指出,谷歌甚至无法看到网站上的用户行为,这排除了将其作为排名信号的可能性:“所以总的来说,我认为我们甚至看不到人们在你的网站上做了什么。他们是否填写了表格,是否完成了转化并实际购买了东西……所以如果我们看不到这些,那么我们就无法将其考虑在内。因此,在我看来,这并不是我真正会视为排名因素的东西。”
谷歌搜索团队分析师加里·伊利耶斯(Gary Illyes)也表达了类似看法,他经常将点击数据描述为不可靠的直接排名依据。他曾将点击称为“非常嘈杂的信号”,并表示由于操纵和抓取活动,直接使用它们会存在问题。在一次特别直白的否认中,伊利耶斯被引用说:“停留时间、点击率,无论费什金(Fishkin)的新理论是什么,这些通常都是编造的垃圾。搜索比人们想象的要简单得多。”
这些公开的否认在SEO社区内引发了长期争论。现在,浮现的内部信息和相关证词提供了具体证据,解决了这场争论,证实了尽管谷歌可能不会将原始点击率作为简单、直接的输入,但它绝对通过 NavBoost 等系统使用复杂的、聚合和标准化的点击数据来评估和重新排名搜索结果。
在这些否认的历史中,伊利耶斯选择的词语留下了一个引人深思的脚注。他将基于点击的理论斥为“编造的垃圾”,从浮现信息的角度来看,这带上了一层深刻的讽刺意味。因为,内部文档揭示了一个名为“Craps”的排名系统模块,其定义是处理“点击和展示信号”的系统。从本质上讲,它正是处理伊利耶斯公开否认的数据的系统。它处理的指标——好的点击(goodClicks)、坏的点击(badClicks)和最长点击(lastLongestClicks)——是用户满意度的直接、可量化衡量标准,它们是点击率和停留时间这些被嘲笑概念的复杂代理。
这是否是伊利耶斯故意开的一个“元文本”玩笑——一个隐藏在轻蔑言语下的真相承认——我们无从得知。但这个巧合是惊人的。它完美地概括了谷歌的公共关系与内部工程现实之间的动态:那些被公开贬低的“垃圾”,实际上是排名架构的一个命名组件。
多维协同:萤火虫系统如何描绘网站全貌
“QualityCopiaFireflySiteSignal”不应被视为一个独立的、单一的算法。此次浮现的架构明确表明,谷歌的质量评估是一个由许多相互连接的系统组成的复杂、多阶段流程。萤火虫系统的作用,可能是一个高级别的聚合器,或者是一个决策系统,它根据来自其他更专业模块的信号进行判断。
一个垃圾行为通常是一个重要的事件,谷歌的工程依赖于交叉验证。萤火虫系统可能会综合各种输入,做出最终判断。例如:
- 初步标记:numOfUrlsByPeriods 属性显示新页面数量出现大规模激增。这是“Copia”(丰盛)信号。
- 质量检查:系统检查 numOfArticlesByPeriods。它发现,尽管新 URL 数量庞大,但高质量文章数量却持平。这表明新内容投入不足,质量不高。这一判断得到了 QualityNsrPQData 系统中较低的 contentEffort 平均分的支持。
- 用户验证:系统随后查看用户参与度指标。它发现 dailyClicks 计数很高,但 dailyGoodClicks 计数非常低。这是 NavBoost 系统根据用户行为提供的确认,表明这些内容尽管吸引了点击,但并未让用户满意。
- 最终判断:有了内容产出速度(Copia)、内容质量(QualityNsrPQData)和用户不满意度(NavBoost)等多方信号的相互印证,萤火虫系统可以高度确信该网站存在规模化内容滥用行为,并进行全站范围的降级处理。
政策落地:从原则到实践的量化检测
这个模块与谷歌的政策文档并非孤立存在,它们是同一枚硬币的两面。它们分别代表了谷歌搜索质量执行的“是什么”和“如何做”。可以这样理解:
- 垃圾信息政策文档(规则):这份文档是规则手册。它公开声明了谷歌认为哪些行为是具有操纵性或低质量的(例如,规模化内容滥用、价值稀薄的联盟内容)。
- QualityCopiaFireflySiteSignal(证据):这个模块是数据收集和执行机制的一部分。它是一系列量化信号的集合,这些信号是谷歌自动化系统检测规则手册中描述的违规行为的“方式”。它是用来确定网站是否违反规则的证据。
QualityCopiaFireflySiteSignal 模块内的信号可以直接用于检测或标记潜在的政策违规行为。以下是具体政策如何通过这些信号进行监控的细分:
- 规模化内容滥用(Scaled Content Abuse):这项政策旨在打击生成大量低价值页面的行为。萤火虫模块完美地设计用于发现这一点。当 numOfUrlsByPeriods 大幅增加,而 numOfArticlesByPeriods 没有相应增加时,就发出了信号。这表明高质量内容与总内容之间的比例很差,是自动化、低价值页面生成行为的强烈迹象。
- 价值稀薄的联盟内容(Thin Affiliation):这种内容提供的原创价值很少,导致用户体验不佳。用户参与度信号将揭示这一点。当 dailyClicks 和 dailyGoodClicks 之间存在巨大差距时,系统就会发现问题。网站可能获得点击,但用户会因为内容无益而立即返回谷歌。高点击量但低“有效点击”量是用户不满意的典型标志。
- 网站声誉滥用(Site Reputation Abuse):一个优质网站开始托管低质量的第三方内容,以滥用其声誉。系统会发现,一个原本稳定的网站,其 numOfUrlsByPeriods 突然激增,并且随着用户信任的侵蚀,其 dailyGoodClicks 比例逐渐下降。模块的时间序列数据可以检测到网站质量概况的这种负面变化。
- 被黑内容 / 用户生成垃圾信息(Hacked Content / User-Generated Spam):通常,黑客攻击或垃圾信息攻击涉及向合法网站注入数千个新的垃圾页面。系统会发现,numOfUrls 突然异常激增,这与网站的历史记录(在 numOfUrlsByPeriods 中追踪)完全不符。这是一个巨大的危险信号,表明存在问题,需要进一步的自动化分析或人工审查。
- 门页滥用(Doorway Abuse):这些页面是令人沮丧的中间页,无法满足用户的需求。与价值稀薄的联盟内容类似,这会导致 dailyGoodClicks 与 dailyClicks 的比例不佳。用户点击进入,发现这是一个无用的门页,然后离开。这表明网站正在获得流量但未能满足用户。
新时代指南:如何打造受搜索引擎青睐的优质内容
“QualityCopiaFireflySiteSignal”中特定属性的浮现,使得SEO策略超越了泛泛而谈的陈词滥调。“创作优质内容”已不再是足够充分的建议。现在,目标是构建网站,使其核心价值架构与谷歌现已可见的蓝图完美对齐。这种新范式可以被称为“架构化SEO”——以一种对谷歌核心数据收集架构而言清晰且有利的方式,构建网站的内容、权威性和用户体验。
- 关注“有效点击”比例,而不仅仅是点击量:策略必须超越确保首次点击。整个用户旅程都必须优化,以产生积极的用户行为信号。这包括创建清晰的信息架构、确保快速的页面加载时间,以及最重要的是,精心制作能够全面有效地解决用户查询的内容。目标是防止导致“坏点击”和搜索结果降级信号的“跳出行为”,转而培养那些能验证内容质量的长时间点击和成功转化。
- 优先提升“高质量文章”数量(numOfArticles8 Count):首要战略目标必须是增加网站内容中被谷歌归类为“高投入”内容的比例。这意味着将重点从内容数量转移到内容的不可替代性。投资于包含原创研究、独特数据、专家见解和不易被AI工具抓取前十名搜索结果所复制的视角的内容。每一篇内容都应该是一项资产,竞争对手难以且代价高昂地复制,从而提高其潜在的 contentEffort 分数。
- 管理内容发布速度:numOfUrlsByPeriods 属性明确指出,内容生产的突然、不自然激增是一个危险信号。内容策略应是可持续和一致的。如果你计划进行大规模内容扩展,请确保其与高质量文章(numOfArticles8)数量的相应增加相匹配,以避免触发滥用信号。
- 审计和清理低质量内容:这些网站级别信号的存在证实了约翰·穆勒多年来的建议:网站的整体质量至关重要。大量低质量、无益的页面会拖累整个域名。进行严格的审计,以识别那些可能具有低 contentEffort 分数和差劲用户参与度信号的页面。改进它们,将它们整合到更全面的资源中,或彻底删除它们。
结语
总而言之,“QualityCopiaFireflySiteSignal”是谷歌十多年来秉持的理念的技术体现。这些信息的浮现并没有改变规则,它只是揭示了评分标准。对于SEO专业人士和广大内容创作者来说,持久成功的道路不是寻找漏洞或追逐算法的时尚,而是构建那些基本价值主张清晰而稳固的网站,使其与搜索引擎的架构原则完美契合——而搜索引擎,始终致力于识别和奖励真正的优质内容。新媒网跨境认为,黑箱时代已经结束,与架构对齐的时代已经开始。这意味着,只有真正以用户为中心,持续输出有价值、高质量内容的创作者,才能在这个充满机遇与挑战的时代中行稳致远,共建清朗健康的数字生态。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/google-firefly-site-demotion-spam.html


粤公网安备 44011302004783号 













