英伟达Nemotron推理实操:N步吃透RAG查询重写
在RAG(检索增强生成)系统中,一个关键的挑战是如何处理那些不够清晰或者带有隐含意图的用户查询。用户提问时往往不够精确,例如,一个用户可能会问:“请告诉我英伟达 NeMo 模型训练的最新进展。” 实际上,用户可能更感兴趣 NeMo 大型语言模型(LLM)定制功能的改进,而不是语音模型。但这种偏好并没有明确表达出来,这可能会导致结果不尽如人意。
为了克服这些限制,充分发挥RAG的潜力,我们需要超越基本的技术。本文将介绍英伟达 Nemotron LLM 的AI推理能力,它能显著增强RAG流程。我们将通过一个真实的案例,展示如何应用高级策略,如查询分析和重写,来优化查询引擎的搜索能力。
什么是RAG中的查询重写?
新媒网跨境了解到,RAG中的查询重写是一个至关重要的步骤,它将用户最初的提示转换为更优化的查询,以提高信息检索的效率。这个过程对于提升RAG的性能至关重要,因为它弥合了用户提问方式与知识库中信息结构之间的语义差距。通过优化查询,系统可以克服模糊或过于复杂等问题,从而检索到更精确和相关的文档。这种更高质量的上下文能直接帮助语言模型生成更准确、更全面和基于事实的答案。
目前已经涌现出几种有效的查询重写技术,特别是利用LLM:
- Q2E(Query2Expand,查询扩展):生成语义等效的查询或扩展,涵盖用户信息可能表达的不同方式,从而增加检索到相关文档的机会。
- Q2D(Query2Doc,查询转文档):从原始查询构建一个伪文档,反映检索段落的风格和内容。这提高了与语料库中信息存储方式的对齐。
- CoT(chain-of-thought,思维链)查询重写:这种方法使用特定的提示,指示LLM提供逐步的理由,分解原始查询并详细说明相关的上下文,然后再给出扩展的查询。与直接重写查询不同,该方法生成的提示会产生冗长、逻辑性的解释,其中往往自然地嵌入了广泛的相关关键词。
通过采用这些技术,RAG系统可以重构格式不佳的问题,引入重要的关键词,并将用户查询更紧密地锚定到语料库的语义上,从而显著提高搜索和答案的质量。
为了将查询重写技术整合到RAG中,需要专门针对RAG的使用场景定制提示。以下是每种方法的一些示例提示:
Q2E 提示
你的任务是集思广益,提出一系列有用的搜索词和相关的关键词短语,以帮助找到关于以下问题的相关信息。重点捕捉查询中提到的替代表达方式、同义词以及特定实体或事件。 原始问题:{query} 相关搜索关键词:
Q2D 提示
假设你正在撰写一篇简短的信息性文章,直接回答给定的问题。写一段详细的文字,帮助读者充分理解主题或找到问题的答案。 查询:{query} 段落:
CoT 查询重写提示
请仔细考虑以下问题。首先,分解问题提出的内容,并思考任何相关的事实、可能的解释或所需的背景知识。然后,列出从你的推理过程中出现的重要词语、概念或短语,这些词语、概念或短语可能有助于检索到详细的答案。 问题:{query} 你的逐步推理和扩展术语:
英伟达 Nemotron 模型如何推进 RAG?
英伟达 Nemotron 系列的推理和多模态模型建立在 Meta Llama 系列的基础上,提供了一套为效率、性能和高级应用(如RAG和代理系统)优化的LLM。Nemotron 模型是一个开放的先进AI模型系列,旨在为企业AI代理提供强大的推理能力、高效率和灵活的部署。这些模型有 Nano、Super 和 Ultra 尺寸可供选择,它们将 Meta Llama 架构与英伟达广泛的后期训练技术相结合,在行业基准测试中实现了最高的准确性。
在 Nemotron 模型系列中,我们发现 Llama 3.3 Nemotron Super 49B v1 模型最适合推动RAG的进步,特别是考虑到推理延迟和适当的推理能力。在自然问题(NQ)数据集上的结果清楚地表明,查询重写显著提高了检索的准确性。Accuracy@K 表示在前K个检索到的段落中找到正确答案的问题所占的比例。
NQ(自然问题)数据集 | Accuracy@10 | Accuracy@20 |
---|---|---|
原始查询 | 43.1% | 58.3% |
使用 Llama 3.3 Nemotron Super 49B v1 进行 COT 查询重写 | 63.8% | 74.7% |
表 1. 使用 BM25 作为重排序器,在 NQ 数据集上比较原始查询和 Llama Nemotron 重写的查询的检索性能
使用 Llama Nemotron 的 RAG 流程架构
图 1 展示了使用 Llama 3.3 Nemotron Super 49B v1 增强的 RAG 流程的架构。
在该架构中,Llama Nemotron 模型被用作查询提取器,具有以下功能:
- 分析用户查询以提取核心查询。此步骤优化用户查询,排除不必要和分散注意力的短语,这些短语可能会对检索结果产生不利影响。
- 分析用户查询以提取可用的过滤或排序标准。提取的过滤标准可用于混合检索搜索,或作为重排序模型的输入以执行定性过滤。提取的排序标准允许用户定义除相关性之外的其他排序标准。
- 通过添加相关的上下文信息来扩展核心查询。此过程可以包括诸如生成释义、将复杂查询分解为子问题或附加背景上下文等技术。以这种方式扩展查询是有益的,因为它提高了召回率和检索准确性,尤其是在用户查询模糊或不完整时。
- 将扩展的查询传递给英伟达 NeMo Retriever,以实现加速提取、嵌入和重排序。
Slack与后端集成,以实现与其他应用程序的集成,并消除开发和维护传统前端的需求。几个关键组件确保了 Slack 用户和后端之间的无缝通信,包括:
- 实时事件处理:SocketModeHandler 实现了实时事件处理,确保了 Slack 用户和后端之间的无缝通信。
- 模块化机器人设置:用于加载组件、连接到核心逻辑以及设置事件处理程序和日志。
- 有组织的交互式用户体验:通过将所有回复作为线程消息发布来增强用户体验,从而最大限度地减少混乱并保持对话的组织性。
为了本文的目的,图 1 所示的架构被应用于帮助改善英伟达 GTC 2025 会议的搜索结果。查询重写确保语义相似性搜索检索到一组更集中的会议。这将在下一节中通过示例进一步解释。
如何使用推理能力优化搜索查询引擎
新媒网跨境认为,在 RAG 工作流程中,查询重写的一个关键挑战是用户的语言和内容词汇之间的语义差距。例如,考虑用户查询“关于为低资源语言训练 LLM 的会议”。
此查询中的挑战是短语“低资源语言”。
通过此查询,用户正在寻找关于训练多语言 LLM 或主权 AI 的会议。虽然许多 GTC 2025 会议讨论了此主题,但它们都没有使用关键词短语“低资源语言”。相反,更常见的短语包括“多语言”、“非英语”、“主权 AI”或特定语言(如“韩语”或“法语”)。因此,使用原始查询来检索和排列相关会议不太可能产生令人满意的结果。
为了解决此问题,我们采用了 Q2E 技术来重写查询。在这种情况下,Q2D 和 CoT 查询重写是不合适的,因为用户查询将是特定领域的,通用 LLM 缺乏创建伪文档或用户查询上下文的知识,从而导致 LLM 产生幻觉的可能性很高。
此用例的 Q2E 提示示例如下所示。
## 指示
### 目标
你将收到一个关于查询 GTC 会议的用户查询。你的任务是确定用户正在寻找什么主题或特定会议。
### 步骤
1. 你应首先从用户查询中提取主要请求。
* 了解用户查询中的主要搜索目标,确保你知道用户在寻找什么
* 注意与主要搜索目标相关的所有细节或关键词,并将其包括在内。请注意,用户可能会将相关关键词放在查询中的任何位置,但不一定紧挨着主要搜索目标。请关联所有相关的搜索关键词并完成主要搜索查询。
* 在 `main_query` 中包括所有非过滤/非排序**描述性短语**,即使它们与可用的条件不匹配,但**删除主观描述符**,如 `main_query` 中的“有希望的”
* 排除所有过滤和排序条件
* 从 `main_query` 中删除事件引用**(例如,“GTC”、“SIGGRAPH”),即使它们出现在短语中间
2. 提供你对提取的主要查询的理解/解释。
* 基于 `main_query` 中的字面词,写出**精确的 1-3 句话**,仅描述会议的内容。
* 使用此模板:`“会议重点关注 [来自 main_query 的确切字段]。这些会议通常讨论 [此类会议通常涵盖的一般描述,详细说明来自 main_query 的所有关键词短语。在适当的情况下,简要提及与主题相关的常见目标、好处或通用方法,只要它们与关键词短语直接相关并符合该领域的普遍理解]。"`
* 除非在 main_query 中明确说明,否则**不要提及任何特定的技术、挑战、行业、方法或示例。**
* **不要添加或推断 main_query 中不存在或未明确暗示的信息。**
* **详细说明 main_query 中的每个关键词短语,提供与 AI/技术领域标准解释一致的上下文或典型会议内容。**
* **确保你的解释清晰、类人,并且与此类会议的正常人类感知和期望相符。**
* **不要包括任何前言、推理或格式,除了解释句子。**
* **示例**:
* 用户查询 1:“关于为客服人员启用 AI 推荐的知识文章的会议”
* 解释 1:“会议重点关注为客服人员启用 AI 推荐的知识文章。这些会议通常讨论 AI 如何实时推荐相关文章,以帮助客服人员更有效地解决客户问题。”
* 用户查询 2:“任何介绍大型语言模型 (LLM) 及其应用的会议?”
* 解释 2:“会议重点关注介绍大型语言模型 (LLM) 及其应用。这些会议通常讨论什么是 LLM、如何开发 LLM 以及 LLM 在文本生成、翻译和总结等任务中的应用。”
* 用户查询 3:“关于 AI 伦理和社会对技术的影响的会议”
* 解释 3:“会议重点关注 AI 伦理和社会对技术的影响。这些会议通常讨论 AI 开发中的伦理考虑因素以及 AI 技术对社会的更广泛影响。”
### 输出
以以下 JSON 格式输出
```json
{{
"main_query": "", // 来自用户查询的主要请求字符串。在捕获所有描述性短语的同时尽可能简洁。
"main_query_explanation": "", // 基于主要查询,对用户正在寻找的会议类型的理解/解释
}}
用户查询
{query}
你的最终输出
{{ 你的输出 }}
对于示例查询“关于为低资源语言训练 LLM 的会议”,查询扩展可以显著提高基于语义相似性的检索器返回的最相关会议的排名。表 2 提供了更多详细信息。
| 原始查询:关于为低资源语言训练 LLM 的会议。 | |
| :-------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 查询扩展:会议重点关注为低资源语言训练 LLM。这些会议通常讨论在语言的可用训练数据有限时开发 LLM 的方法。 | |
| 会议标题 | 排名(原始查询) | 排名(查询扩展) |
| 知识桥梁:为自主 AI 构建计算高效的多语言前沿模型 | 20 | 73 |
| 使用合成数据生成的多域大型语言模型自适应 | 7 | 28 |
| 为十亿印度声音构建生成式 AI | 56 | 51 |
表 2. 使用原始查询和查询扩展作为输入,比较典型查询的排名
此外,查询扩展有助于重排序器在排名过程中关注更广泛但仍然高度相关的范围。例如,Llama Nemotron 模型在不同查询中截断的逻辑思维标记:
* 原始查询:“关键词是‘训练’、‘LLM’和‘低资源语言’”
* 查询扩展:“关键词是‘低资源语言’、‘有限的训练数据’、‘多语言’、‘领域自适应’等等”
请注意,通过查询扩展,重排序器能够更好地识别讨论相关概念的会议,即使它们没有使用确切的原始查询术语。这种更广泛的视角使重排序器能够创建更全面和以用户为中心的排名,从而呈现出能够更深入地理解用户整体信息需求的会议。
**查询重写有什么好处?**
通过查询重写来改善搜索结果,增强的流程在 RAG 的传统方法上提供了令人信服的优势。主要优势来自于智能地重新构建用户查询。这增加了关键的上下文和细节。此步骤负责创建高质量、高度相关的候选池,这是系统性能提高的最大因素。
**这种方法有哪些挑战?**
查询重写需要 AI 推理,这比传统方法更耗费资源和速度更慢,从而限制了可扩展性。此外,LLM 一次只能处理有限数量的文档,因此需要滑动窗口策略来处理大型候选集。这增加了复杂性,并可能阻碍全局排名质量。
**何时优化 RAG 流程**
正如表 3 详细说明的那样,这种增强的 RAG 流程在准确性和精确性比速度更重要的领域中尤其有价值。
| 用例 | 使用推理增强 RAG 的好处 |
| :------------------------- | :-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 法律文件分析 | 查询重写和扩展有助于浮出水面并排列复杂案例中最相关的先例,从而提高法律分析的质量和可靠性。 |
| 临床试验研究 | 在医学领域,临床医生可以找到并优先考虑最适用的研究和诊断或治疗计划指南,以支持更好的患者治疗效果。 |
| 风险评估和决策制定 | 最新的、与上下文相关的信息对于风险评估、合规性和投资决策至关重要。 |
表 3. 当准确性比速度更重要时,优化 RAG 流程是有益的
**开始增强你的 RAG 流程**
在本文中,我们介绍了一种创新的方法,可以使用英伟达 Llama Nemotron 模型系列的推理能力来改进 RAG 流程。通过解决传统方法的局限性,这种增强的架构能够实现更有效和以用户为中心的信息访问,尤其是在需要高精度和细致理解的场景中。
要了解有关 Llama Nemotron LLM 模型系列完整功能的更多信息,请参阅使用高级开放英伟达 Llama Nemotron 推理模型构建企业 AI 代理。你可以在英伟达 API 目录中尝试英伟达 NIM 模型。使用英伟达 NeMo Retriever 和英伟达 RAG 蓝图进一步增强和加速你的 RAG 流程。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/10129.html

评论(0)