跨境2025!AI搜索不认结构化数据。内容可见性看这!
当前,随着人工智能技术在搜索领域扮演的角色日益重要,关于内容优化策略的讨论也愈发激烈。其中,结构化数据(Schema Markup)在AI搜索中的可见性问题,近期引发了行业内的广泛关注。传统上,结构化数据被视为提升网站在搜索引擎中表现的关键要素之一,但最新的一些研究和实验表明,至少在当前阶段,其在AI搜索可见性方面似乎并未展现出显著的辅助作用。
长期以来,业界普遍认为,在网页上实施结构化数据或Schema标记,有助于提升网站在AI搜索结果中的可见度。这种观点基于结构化数据能够为搜索引擎提供更清晰、更具体的页面内容上下文信息。然而,近期进行的几项测试表明,增加结构化数据或Schema标记,尚未能有效提升内容在AI搜索中的可见性。
对结构化数据在AI搜索中作用的早期探究
2024年,英国的数字营销专家马克·威廉姆斯-库克(Mark Williams-Cook)率先在领英平台上分享了一项他进行的实验。该实验旨在通过直观的方式解释,为何大型语言模型(LLM)在其核心训练数据中不直接使用Schema标记。根据威廉姆斯-库克的解释,当LLM处理网页内容时,实际上会“破坏”Schema标记的结构,从而导致其无法被有效利用。
威廉姆斯-库克详细阐述了LLM的工作机制:LLM通过“分词”(tokenising)来处理内容,即将文本中常见的字符序列提取出来,并为每组序列创建一个独特的“词元”(token)。随后,LLM会分析数十亿个由这些词元组成的“样本窗口”,以预测接下来可能出现的词元。
他进一步解释道,如果Schema标记被纳入训练数据,在分词过程中,它会被分解成独立的词元。例如,Schema中的"@type": "Organization"
会被拆解为"@"
、"type"
、":"
、"Organization"
等单独的词元。这意味着从分词的角度来看,Schema中的“type”和“Organization”等词,与普通文本中的同名词汇并无本质区别。在这种情况下,Schema的存在,可能仅仅意味着在某些词元(如"@"
)之前出现“content”一词的概率会略微增加,而这种增加通常被认为是微不足道的。
上图展示了被GPT-4o模型处理后的Schema示例,其中颜色变化代表了字符集被识别为独特的词元。图片清晰地显示了Schema在分词过程中被“破坏”的现象。这一观察为理解LLM如何处理结构化数据提供了初步的视觉证据。
进一步的实验验证与结果
除了威廉姆斯-库克的发现,另一位研究者胡里奥·C·格瓦拉(Julio C. Guevara)也进行了类似的测试,并于2024年在领英上公布了他的实验结果。格瓦拉表示,他们设置了两个关于同一虚拟产品的产品页面,这些产品页面此前从未被谷歌的Gemini或OpenAI的ChatGPT等AI模型收录。其中一个页面包含了在HTML中可见的文本内容以及结构化数据;而另一个页面则仅包含结构化数据,页面上没有任何可见的文本内容。
实验结果表明,仅通过结构化数据,AI模型无法有效提取信息。格瓦拉指出:“我们尝试了数百次不同的提取提示,以观察LLM是否能够返回诸如价格、颜色、SKU编号等信息。令人惊讶的是,这仅在包含可见文本信息的页面上才有效。”
格瓦拉的测试进一步验证了一个核心观点:大型语言模型似乎无法仅从结构化数据中识别并提取文本信息。这意味着,如果信息仅仅以结构化数据的形式存在而没有相应的可见文本支撑,AI模型很难从中获取有效内容。
结构化数据与AI搜索的深层关联
要理解这些测试结果的意义,我们首先需要回顾结构化数据在传统搜索引擎优化(SEO)中的作用,以及AI搜索的工作原理。
结构化数据在传统SEO中的地位
在AI搜索兴起之前,结构化数据,特别是Schema.org标记,一直是搜索引擎优化策略中的重要组成部分。它允许网站所有者以标准化的格式向搜索引擎提供关于其页面内容的明确信息。例如,一篇食谱可以标记其成分、烹饪时间、卡路里等;一个产品页面可以标记其价格、库存、评论星级等。
这些明确的信息能够帮助传统搜索引擎更好地理解页面内容,并将其呈现在搜索结果中,形成所谓的“富摘要”(Rich Snippets)或“知识面板”(Knowledge Panel)。富摘要通常包含图片、星级评分等视觉元素,能显著提升搜索结果的吸引力,增加点击率。因此,结构化数据被认为是增强网站在搜索结果中可见性和用户体验的有效工具。
大型语言模型(LLM)与AI搜索的崛起
进入2025年,随着大型语言模型技术的飞速发展,AI搜索已不再仅仅依赖关键词匹配和结构化数据来理解查询和内容。现代AI搜索系统,如谷歌的AI概览功能或微软的Copilot,越来越多地利用LLM进行语义理解。这些模型能够理解自然语言的复杂性、上下文,并生成连贯、信息丰富的答案。
LLM的核心工作机制是“学习”语言模式和知识。它们通过分析海量的文本数据来建立词元之间的统计关系。在这个过程中,文本的“可见性”和“自然语言表达”至关重要。LLM的训练数据主要来源于公开可访问的网页、书籍、文章等,这些数据通常以人类可读的自然语言形式呈现。
LLM“分词”过程对结构化数据的影响
威廉姆斯-库克的实验揭示了关键所在:LLM在处理文本时进行“分词”操作。分词是将一段连续的文本分割成有意义的最小单元——词元的过程。这些词元可以是单词、标点符号、数字甚至特殊字符。LLM通过这些词元来构建其对语言的理解。
当HTML代码中的结构化数据被LLM处理时,它并不会被作为一个整体的、具有特定含义的“结构化信息块”来对待。相反,<script type="application/ld+json">
标签内的JSON-LD代码,其内部的键值对(如"@type": "Organization"
)会被分解成独立的词元,例如@
、type
、:
、Organization
、"
等。这些单独的词元与页面上其他普通文本词元混合在一起,失去了其作为结构化数据所特有的语义层级和关联性。
从LLM的角度看,一个被标记为Organization
的结构化数据字段,与页面上任何一处普通文本中出现的“组织”这个词,在分词层面可能并没有本质区别。LLM不会自动将其识别为一种特殊的、需要优先处理的、带有额外语义信息的“数据结构”。它只是将其视为训练数据中的一系列词元。
对跨境行业SEO策略的启示
这些早期测试结果,为中国跨境行业的从业者在优化AI搜索方面提供了重要的思考方向。
首先,可见文本内容的重要性被再次强调。如果信息未能以人类可读的自然语言形式在页面上呈现,仅仅依赖结构化数据可能无法确保AI模型能够有效捕捉和理解这些信息。对于跨境电商而言,这意味着清晰、详尽的产品描述、客户评论、常见问题解答等可见文本内容,依然是吸引AI搜索关注的核心。
其次,内容质量与用户体验仍是基石。AI搜索旨在提供更精准、更具上下文关联性的答案。这意味着网站内容不仅要易于机器理解,更要符合用户的真实信息需求。高质量、原创、有价值的内容,能自然地回答用户问题,满足搜索意图,这本身就是对AI搜索友好的表现。
第三,持续关注技术演进。尽管当前的测试结果如此,但AI技术和搜索引擎算法正以惊人的速度迭代。今天的“不工作”不代表永远“不工作”。未来,AI模型可能会发展出更先进的能力,能够更直接地理解和利用结构化数据。例如,AI可能会被训练成能够识别JSON-LD结构,并将其转化为内部知识图谱。因此,跨境从业者仍需保持警惕,持续关注谷歌、微软等主要搜索引擎在AI搜索领域的最新动向,适时调整SEO策略。新媒网跨境获悉,各大技术公司都在持续投入资源优化AI模型对信息理解的能力。
新媒网认为,在2025年,对于专注于海外市场的中国跨境企业而言,在AI搜索的浪潮中,现阶段的优化重点应回归到高质量的内容创作、优秀的用户体验设计,以及符合目标市场语言习惯的自然语言表达上。结构化数据作为传统SEO的有效工具,虽然在AI搜索的早期测试中未显现直接可见性优势,但其作为辅助搜索引擎理解页面内容、提升传统搜索结果展现形式的价值依然存在,不可完全忽视。
这些早期测试结果为我们提供了一个重要的观察窗口,揭示了大型语言模型处理结构化数据的一些基本机制。虽然未来的技术发展可能会改变这一现状,但就目前而言,将信息以清晰、自然、可读的文本形式呈现,似乎是确保内容在AI搜索中获得可见性的主要路径。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/cross-border-2025-ai-search-schema-ignored.html











评论(0)