跨境AI新突破:知识图谱重塑搜索,证据飙升4倍!

在当今的互联网格局中,语言模型正从单纯的信息使用者转变为探索者。这一转变对知识图谱的应用产生了深远影响,揭示出结构而非简单的上下文窗口大小,才是确保人工智能准确性和搜索可见性的核心要素。
新媒网跨境获悉,我们正迈入一个全新的网络时代——“推理网络”。在这个时代,搜索领域的旧有模式面临重大转折。人工智能系统不再仅仅是被动地阅读文档,它们正演变为能够主动探索信息空间、理解关系并借助结构化推理构建认知的智能体。这种角色上的根本性差异至关重要。
传统的检索增强生成(RAG)技术通过将外部信息注入提示词(prompt)来支撑大语言模型(LLM)的输出。然而,大多数RAG系统仍停留在“单次查找”的模式:一次查询,提取最重要的片段,然后进行一次性合成。当答案能够从单一文本段落中获取时,这种方式是有效的。但当真相需要通过页面、实体和概念之间的关联才能浮现时,它便会失效。而企业所面临的复杂问题,往往无法在单一页面中找到完整答案。
例如,当一家保险公司(如苏黎世保险)需要了解涵盖多种保单类型的保险方案时,答案并非“存在于某篇文章”中。它存在于复杂的结构、保单定义、除外条款、管辖区域、批注以及这些元素如何相互关联之中。当一家汽车运输客户想要知道路线如何影响定价时,答案则需要结合地理位置、限制条件、季节性需求、承运商可用性和服务等级等多种因素才能得出。
换言之,证据存在于知识图谱中,而不仅仅是文本里。
本文将深入介绍基于知识图谱的递归语言模型(RLM-on-KG)。这是一种对递归语言模型推理(Recursive Language Models, RLMs)的创新性改编,其中“环境”被定义为通过GraphQL接口访问的WordLift知识图谱。
递归语言模型(RLMs)是由美国麻省理工学院(MIT)的Alex Zhang、Tim Kraska和Omar Khattab在2025年发表的最新研究中提出的概念。这项研究提出了一个简单而强大的观点:与其向语言模型中输入大量上下文,并期望它能保持连贯性,不如让模型将提示词视为一个外部环境,它可以主动检查、分解并递归地进行导航。
通过一个包含150个问题(来自WordLift博客的知识图谱,包括文章和常见问题页面)的基准测试,研究人员对比了三种回答模式:传统模式(Vanilla)、简单RAG模式和RLM-on-KG模式。测试揭示了两个关键发现:
第一,多跳知识图谱遍历能够显著提升证据质量和引用行为。第二,在引入明确的“判别器”来评估归因准确性时,这种方法也暴露出一种“过度解读”的潜在问题。
1. 简介
1.1 背景:处于“无限上下文”时代的搜索引擎优化(SEO)
现代搜索引擎优化(SEO)正日益围绕语义覆盖展开:包括实体、实体关系、结构化数据以及在互联内容网络中满足用户意图。对于大语言模型(LLM)智能体而言,“无限上下文”并非指巨大的提示词窗口,而是一个庞大且不断演进的链接知识语料库。
核心挑战在于:如何将无限的上下文转化为可追溯且易于导航的记忆?
在“推理网络”时代,搜索引擎优化(SEO)的重心正从优化单个页面转向优化有利于推理的信号。我们正进入一个人工智能系统能够:
- 跨多个步骤探索内容
- 遵循实体之间的关系
- 核实跨来源的信息
- 通过导航结构而非阅读单个页面来构建答案
因此,核心问题变为:您的内容是否能够被推理系统有效地探索?
如果您的网站结构良好,具有语义标记和明确的实体关系,人工智能代理便能深入遍历。它们可以在不同页面之间建立概念联系,消除歧义,并构建准确的答案。反之,如果您的网站主要由非结构化文本组成,代理将只能看到孤立的片段。它能检索信息,但无法进行有效的导航。
这标志着搜索引擎优化(SEO)正迈向一个新阶段,可称之为SEO 3.0:即优化您的信息架构,使人工智能代理能够智能地探索,而不仅仅是进行表面检索。
1.2 从递归语言模型(RLMs)到基于知识图谱的递归语言模型(RLM-on-KG)
由美国麻省理工学院(MIT)的Zhang、Kraska和Khattab于2025年12月提出的递归语言模型(RLM)框架,通过重新定义记忆问题,颠覆了传统观念。它不是将更多信息强行塞入上下文窗口,而是让模型递归地探索其环境,逐步查询、检查和分解信息。
这可以理解为以下两种情况的区别:一种是提供十个随机页面,然后要求其回答问题;另一种是允许其自由漫游整个图书馆,跟随参考文献,并迭代地构建理解。
递归语言模型(RLMs)将提示词视为一个可导航的外部环境,在原始论文中,它被实现为一个Python REPL(交互式解释器)。
研究人员提出了一个简单的问题:如果这个环境是一个知识图谱会怎样?
递归语言模型(RLMs)将长提示词视为一个环境,并允许大语言模型(LLM)以编程方式检查、分解并在代码片段上递归调用自身。
在此基础上,研究团队进一步设想:如果环境是一个知识图谱,那么“无限上下文”便会转化为一个图探索问题。
研究团队与WordLift合作,通过将Python REPL替换为他们熟悉的WordLift知识图谱(通过GraphQL访问),成功改编了递归语言模型(RLM)方法。
在实际实现中,模型并非接收一个庞大的上下文倾倒。相反,它以迭代方式导航图谱。每一次“跳跃”只带回少量证据,例如一些常见问题(FAQ)解答、部分文章片段以及关键实体关系,通常是200字节而非50KB的文章内容。模型(使用的是谷歌的Gemini Flash 3.0)会检查这些证据,决定下一步探索哪些相关实体,并持续这一过程,直到积累到足以合成答案的视角。
简而言之,该过程包括:
- 获取一个节点(种子实体)。
- 提取一个微型子图(通过知识图谱关系或内容中共现的邻居)。
- 在预算范围内进行递归跳跃。
- 在遍历过程中观察到的统一资源标识符(URI)/统一资源定位符(URL)的引用下合成答案。
导航并非随机。它由问题相关性(即每个实体与原始查询的匹配程度)和多样性(确保模型探索不同角度而非仅深入研究一个单一视角)共同指导。
图1. 系统概览:问题 -> 实体搜索种子 -> 跳跃循环 -> 证据包 -> 紧凑上下文 -> 答案 + 引用 -> 判别器。
1.3 定位与图谱RAG(GraphRAG)的差异
图谱RAG(GraphRAG)技术(由微软提出)通过从原始文本构建图索引,然后利用社区摘要和查询时检索来大规模回答问题,尤其适用于全球性、语料库层面的查询。
基于知识图谱的递归语言模型(RLM-on-KG)与图谱RAG在以下三个实际方面存在差异:
- 图谱来源
- 图谱RAG:从文档中构建图谱。
- RLM-on-KG:在预先构建的、具有明确语义关系的RDF知识图谱上运行。
- 查询时行为
- 图谱RAG:检索社区/摘要来组合答案。
- RLM-on-KG:执行多跳探索策略,其中遍历本身是主要的推理循环。
- 溯源粒度
- 图谱RAG:引用通常指向文本片段或社区摘要。
- RLM-on-KG:引用在逐跳遍历过程中发现的特定实体URI和页面URL(例如,文章和常见问题页面URL),这与搜索引擎优化(SEO)的需求(如可追溯性和编辑审核)更自然地契合。
2. 系统:作为环境的WordLift知识图谱(KG)
2.1 WordLift知识图谱(KG)访问
研究团队使用WordLift的GraphQL端点来查询账户/网站的知识图谱。关键功能包括:
- 实体搜索(entitySearch):用于语义/词汇发现候选实体。
- 资源访问(resource(iri:)):用于无模式地访问节点属性和关系。
- 文章/常见问题检索模式(Article/FAQ retrieval patterns):返回URL和内容片段。
关于WordLift知识图谱概念和API使用的更多信息,可参阅WordLift官方文档。
2.2 证据类型
WordLift博客的知识图谱组织围绕以下核心元素:
- 文章(Articles):例如,遵循schema:Article规范,包含标题(headline)、描述(description)和统一资源定位符(url)。
- 常见问题页面(FAQPages):包含问题/答案对,遵循schema:FAQPage、schema:mainEntity和schema:acceptedAnswer规范。
- 通过Schema关系连接的实体(Entities):例如,通过schema:about和schema:mentions等关系进行连接。
3. 方法
为了评估这种方法,研究团队从WordLift博客的知识图谱(包括文章和常见问题页面)中构建了一个包含150个问题的基准测试集。他们比较了以下三种回答模式:
- 传统模式(Vanilla):Gemini Flash 3.0直接从其训练数据中回答。不进行任何检索。这种模式速度快,但缺乏溯源性。
- 简单RAG模式(Simple RAG):单次检索。即一次搜索,检索最相关的结果,然后进行合成。
- 基于知识图谱的递归语言模型模式(RLM-on-KG):通过知识图谱进行多跳遍历,从五个实体和五次跳跃中聚合证据,然后进行合成。
3.1 比较回答模式
模式A — 传统模式(Vanilla)
大语言模型(LLM)直接回答,不进行检索。产生流畅的回复,但缺乏溯源性。
模式B — 简单RAG模式(一次性)
- 通过
entitySearch(question)进行实体搜索。 - 选择排名靠前的实体。
- 获取最重要的常见问题(FAQ)和文章(仅包含简短片段)。
- 仅使用这些证据进行回答。
- 通过
模式C — 基于知识图谱的递归语言模型模式(RLM-on-KG,多跳)
- 从
entitySearch(question)中获取种子实体。 - 对于每一次跳跃(预算为5次):
- 为当前聚焦实体收集证据包(包括常见问题和文章片段)。
- 使用来自顶部文章的相关实体(
schema:about+schema:mentions)扩展候选实体。 - 通过简单的重叠加分数策略(避免重复访问)选择下一个实体。
- 从证据包中构建一个紧凑的上下文。
- 生成答案时受限于证据,并要求在可能的情况下引用统一资源定位符(URL)。
- 从
3.2 作为策略的探索循环
基于知识图谱的递归语言模型(RLM-on-KG)可以被形式化为一个轻量级的马尔可夫决策过程(MDP):
- 状态:当前聚焦实体(IRI/名称)、已访问集合、跳跃索引。
- 行动:在邻居/候选实体中选择下一个实体。
- 转换:下一个实体成为聚焦实体。
- 预算:固定的跳跃次数限制。
- 目标:最大化下游归因答案的质量(通过判别器近似)。
4. 评估与经验总结
研究发现:证据、引用以及一个值得深入研究的失败模式。
基于知识图谱的递归语言模型(RLM-on-KG)所收集的证据量是简单RAG模式的4到6倍。它发现了在任何单一文章中都不存在的关联,这些关系只有在沿着图谱结构从一个实体追踪到另一个实体时才能显现。
例如,当被问及语义化搜索引擎优化(semantic SEO)时,系统不仅仅返回了标有该术语的文章。它会跳转到知识图谱,然后到结构化数据,再到Schema.org,在每一步中积累证据。最终的合成结果表明,语义化搜索引擎优化建立在知识图谱原则之上,这种关系在任何单一文档中都没有明确说明。
多跳方法也改善了引用行为。答案不再依赖于一两个来源,而是从图谱中多样化的视角提取信息。
然而,研究也发现了一个值得关注的失败模式:“过度解读”。当引入一个明确的“判别器”来评估答案的归因准确性时,研究人员发现,在某些情况下,系统在“意图匹配度”方面表现出色(即回答了用户的问题),但其忠实性却较低,未能完全忠实于实际证据所支持的内容。模型有时会对基础来源并未完全保证的结论表现出过度自信。这种问题只有在进行严格的归因评估时才会显现。如果没有判别器检查忠实性,答案看起来令人印象深刻。但有了判别器,便能发现模型在证据基础上的“热情”超越了实际。
研究团队认为,这对于任何正在构建需要具备可信赖性的人工智能系统而言都至关重要。结构提供了更多可供合成的素材,这无疑是强大的,但同样丰富的结构如果处理不慎,也可能导致更复杂的“幻觉”(即生成不真实的信息)。
4.1 数据集
- 150个问题(博客常见问题风格的提示词)。
- 每个问题对应3个答案(传统模式、简单RAG模式、RLM-on-KG模式)。
- 总计:450行数据(150个问题 × 3种模式)。
4.2 判别器
研究团队使用了一个基于大语言模型(LLM)的评估器,该评估器输出结构化分数:
- 忠实性(faithfulness,0-10分):声明是否得到证据支持?
- 意图匹配度(on_intent,0-10分):是否回答了问题?
- 引用覆盖率(citation_coverage,0-10分):关键声明是否被引用?
- 引用准确率(citation_precision,0-10分):引用的统一资源定位符(URL)是否在允许的来源范围内?
一个重要的限制是:传统模式(Vanilla)没有检索过程 → “允许的来源”和“证据”缺失,因此判别器通常会将其忠实性/引用得分设计为接近零。这对于“归因合规性”评估很有用,但除非传统模式在评估时也提供证据,否则这并非一个公平的事实性比较。
4.3 平均得分(± 标准差)

图2. 150个问题上的平均判别得分(±1个标准差)。基于知识图谱的递归语言模型(RLM-on-KG)相对于简单RAG显著提高了引用覆盖率和准确率,而意图匹配度在所有模式下均保持高水平。RLM-on-KG的忠实性有所下降,表明在超出所提供证据摘录进行合成时,其“过度解读”的发生率更高。
图3. 每种模式下总体归因得分的分布。基于知识图谱的递归语言模型(RLM-on-KG)相对于简单RAG提高了分布,但由于问题类型和跳跃轨迹的异质性,表现出显著的方差。
图4. 基于知识图谱的递归语言模型(RLM-on-KG)与简单RAG的每问题胜率(越高越好)。
对于各项指标,研究团队计算了RLM-on-KG得分超过简单RAG得分的问题百分比(平局排除或单独报告)。RLM-on-KG在引用覆盖率和引用准确率上胜出频率最高,并在总分上在大多数问题中胜出,但在忠实性上失败频率更高。这凸显了在改善引用行为和增加多跳合成过程中“过度解读”风险之间的权衡。
以下是总结:
| 模式 | 总体得分 | 忠实性 | 意图匹配度 | 引用覆盖率 | 引用准确率 |
|---|---|---|---|---|---|
| RLM-on-KG | 5.813 ± 1.947 | 3.347 ± 3.096 | 9.273 ± 1.601 | 7.987 ± 3.328 | 6.233 ± 3.363 |
| 简单RAG | 4.981 ± 2.932 | 4.513 ± 3.698 | 8.780 ± 2.273 | 2.107 ± 4.064 | 2.133 ± 4.110 |
| 传统模式(Vanilla) | 2.897 ± 1.325 | 0.753 ± 2.567 | 9.993 ± 0.082 | 0.147 ± 1.013 | 0.000 ± 0.000 |
表1. 平均得分。
解读:
- 基于知识图谱的递归语言模型(RLM-on-KG)相较于简单RAG,在引用行为(覆盖率+准确率)方面表现出显著提升。
- RLM-on-KG在总体得分上也优于简单RAG。
- 在这种判别器设置下,简单RAG的忠实性高于RLM-on-KG——这表明了RLM-on-KG存在一个值得关注的失败模式(过度解读)。
4.4 配对差异(RLM-on-KG − 简单RAG)
基于知识图谱的递归语言模型(RLM-on-KG)与简单RAG之间的配对分析显示:
- 总体得分:+0.832(95%置信区间 ≈ +0.351至+1.297),Cliff’s δ ≈ 0.40,Wilcoxon p ≈ 4.17e-05。
- 引用覆盖率:+5.88(置信区间 ≈ +4.94至+6.80),δ ≈ 0.59,p ≈ 6.97e-18。
- 引用准确率:+4.10(置信区间 ≈ +3.13至+5.05),δ ≈ 0.59,p ≈ 3.15e-10。
- 意图匹配度:+0.493(置信区间 ≈ +0.10至+0.893),δ ≈ 0.153,p ≈ 2.56e-02。
- 忠实性:−1.167(置信区间 ≈ −1.747至−0.593),δ ≈ −0.20,p ≈ 2.04e-04。
下面回顾一个来自数据集的例子,问题是“知识图谱原生内容如何运作?”
| 模式 | 答案 |
|---|---|
| 简单RAG | 知识图谱原生内容通过使用连接的实体来构建“互联意义之网”。它将知识图谱方法与JSON-LD表示和结构化数据(如分类法和模式)相结合,使内容模块化、可查找和可移植。这种结构化方法使得内容可以轻松地以不同格式复制或在数据库之间移动。此外,它还涉及通过“智能实体AI搜索引擎结果页面分析”来创建内容。 |
| RLM-on-KG | 知识图谱原生内容通过连接实体来构建“互联意义之网”。根据所提供的证据,该过程涉及几个关键组成部分:* **互联实体:** 该方法的核心是使用互联更有效的实体,反映了基于共享意义的网络愿景(https://wordlift.io/blog/en/knowledge-graph-native-structured-content/)。* **结构化数据和JSON-LD:** 内容使用JSON-LD表示。这种结构化数据方法使内容模块化,允许其轻松地以不同格式复制,在不同位置之间移动,或填充到各种数据库中(https://wordlift.io/blog/en/knowledge-graph-native-structured-content/)。* **智能分析:** 此内容的创建涉及“智能实体AI搜索引擎结果页面分析”,通常利用SEO插件等工具弥合传统SEO与高级AI功能之间的鸿沟(https://wordlift.io/blog/en/knowledge-graph-native-structured-content/,https://wordlift.io/blog/en/knowledge-graphs-ai-powered-seo/)。* **可查找性和可移植性:** 通过使用分类法和模式,内容对于搜索引擎变得更具可查找性,并可以被谷歌助手等个人数字助理轻松获取(https://wordlift.io/blog/en/knowledge-graphs-ai-powered-seo/,https://wordlift.io/blog/en/make-your-website-talk/)。* **数据集成:** 在电子商务等特定语境中,它涉及将产品信息流(商家或制造商信息流)转换为产品知识图谱,以提高在搜索结果中的可见性(https://wordlift.io/blog/en/how-build-product-knowledge-graph/)。 |
表2. 简单RAG与RLM-on-KG的比较。
这是一个关于概念如何关联(知识图谱原生内容)的问题,图谱导航能够可靠地找到正确的支持节点,并且引用变得既存在又准确。
简单RAG(单次传递)
- 引用覆盖率:0
- 引用准确率:0
- 忠实性:3
- 意图匹配度:10
- 答案中的URL数量:0
- 判别器注释(总结):答案看似合理,但缺乏归因/引用,且所检索的证据支持力度较弱。
基于知识图谱的递归语言模型(RLM-on-KG,递归图谱探索)
- 引用覆盖率:10
- 引用准确率:10
- 忠实性:10
- 意图匹配度:10
- 答案中的URL数量:6
- 判别器注释(总结):答案准确描述了概念,并且关键声明得到了允许来源的支持。
基于知识图谱的递归语言模型(RLM-on-KG)增加了“归因行为”(引用+覆盖率)并提高了总体得分,但目前相比于一次性RAG,它在忠实性方面付出了一定的代价。
这对搜索引擎优化(SEO)意味着什么
将这些研究发现转化为搜索和发现领域的语言。
“无限上下文”并非最终答案。行业多年来一直在追求更大的上下文窗口,假设更多的输入意味着更好的输出。然而,“上下文腐烂”研究以及我们自身的实验表明,这一假设并不成立。
真正重要的是,人工智能系统能够多高效地导航到相关信息片段,而非理论上能够提供多少上下文。
结构成为准确性的关键。当环境是知识图谱而非原始文本时,人工智能便具备了导航能力。它可以遵循类型化的关系,查询特定的实体属性,并有目的地遍历连接。这种结构提升了检索质量和合成准确性,因为模型不仅仅是在寻找与查询模式匹配的文本,更是在理解概念之间的关系。
现在,我们可以衡量结构化数据的“人工智能就绪度”。传统的搜索引擎优化(SEO)指标,如排名、曝光和点击率,衡量的是对搜索引擎的可见性。但随着人工智能代理成为在线信息的主要消费者,我们需要新的衡量标准。通过观察基于知识图谱的递归语言模型(RLM)如何导航知识图谱,我们可以识别哪些实体连接良好,哪些关系能够促成有效的推理,以及结构性缺陷在何处限制了发现。
在WordLift,我们将此称为SEO 3.0:即不再仅仅针对传统搜索算法进行优化,而是为那些能够对结构化信息进行推理的人工智能代理进行优化。RLM-on-KG为我们提供了一种衡量这种推理如何运作以及在何处失败的方法。
前进方向
递归语言模型(RLMs)仍处于早期发展阶段。原始论文主要关注最大递归深度为一的同步子调用,并明确指出更深层次的递归和异步方法尚待探索。作者推测,RLM的轨迹可以被视为一种推理形式,可以像前沿模型当前训练推理能力一样,进行明确的训练。
这与当前的行业趋势不谋而合。结构化环境与递归导航的结合,对于下一代人工智能代理而言,似乎是自然而然的搭配。这些系统将不仅仅响应查询,还会主动探索知识空间,以构建全面的理解。
对于构建知识基础设施的从业者而言,这项研究验证了一个核心论点:未来的网络不仅仅是关于内容,更是关于连接。那些将其信息构建为可导航图谱,具有明确关系、类型化实体和语义标注的网站,将是人工智能代理能够有效进行推理的网站。然而,那些依然保持非结构化文本块的网站,无论其搜索引擎优化程度如何,都将遭受与当今检索增强生成(RAG)系统相同的“上下文腐烂”问题。
在以人工智能为先导的世界里,结构不再仅仅是一个可有可无的特性。它已经成为被理解的基础。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/kg-boosts-ai-search-evidence-4x.html


粤公网安备 44011302004783号 











