RAG没有银弹！四级难度，最新综述覆盖数据集解决方案，教你「LLM+外部数据」的正确使用姿势算法数据源上下文奥运会|cat_vs_dogs猫狗识别数据集_宠物造型

【新智元导读】论文提出了一种RAG任务分类法，将用户查询分为四个级别，并讨论了将外部数据集成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务，每个级别都有其独特的难点和解决方案，需要不同的技术和方法来优化性能。

在实践中，如果RAG效果不佳，通常是由于未能准确识别任务的核心问题，或者是因为该任务本身就需要混合多种技术才能解决，必须将复杂任务拆解开才能获得更好的表现。

文中还讨论了将外部数据集成到LLMs中的三种主要形式：上下文、小模型和微调，分析各自的优势、局限性以及适合解决的问题类型。

级别1：显式事实查询（explicitfactqueries）

例：2024年夏季奥运会将在何处举行？

Wherewillthe2024SummerOlympicsbeheld

常见的问题形式包括：

1.给定一系列学术论文：在论文X中使用了什么方法来解决Y问题？（WhatmethodwasusedinPaperXtosolveproblemY）

RAG主要难点

1.数据处理困难：外部数据通常是高度非结构化的，包含表格、图像、视频等多种模态，将数据进行分段（segmenting）或分块（chunking）处理时，仍然需要保持原始上下文和意义。

3.评估困难：如果评估RAG系统的性能，特别是组件级别的性能，是一项复杂的任务，需要开发出能够准确评估数据检索和响应生成质量的指标。

由于RAG已经算是一个相对成熟的领域，目前已经有大量的文献和工具来应对上述难题，文中介绍了一些实用和有影响力的RAG增强功能，以及可能在RAG之外采用的替代技术解决方案。

级别二：隐式事实查询（implicitfactqueries）

例：堪培拉所在的国家现在哪个党派占多数？

WhatisthemajoritypartynowinthecountrywhereCanberraislocated

解析：堪培拉位于澳大利亚，再检索澳大利亚的多数党。

查询仍然围绕事实性问题，但答案并没有明确地出现在任何某一个文本段落中，而是需要通过常识推理、结合多个事实来得出结论，所需的信息可能分散在多个段落中。

主要难点

1.适应性检索量（Adaptiveretrievalvolumes）：不同的问题可能需要检索不同数量的上下文，具体检索量可能取决于问题和数据集，固定数量的检索可能会导致信息噪声或信息不足。

2.推理与检索之间的协调（Coordinationbetweenreasoningandretrieval）：推理可以指导需要检索的内容，而从检索中获得的信息可以迭代地完善推理策略。

解决这些难点需要智能地整合和有选择性地利用外部数据，利用上大模型固有的推理能力，现有的解决思路包括迭代RAG、基于图/树的RAG以及带有SQL的RAG等。

级别三：可解释理由查询（interpretablerationalequeries）

例：

1.给定胸痛管理指南，如何诊断和治疗有胸痛和特定症状描述的患者？

Howshouldapatientwithchestpainandspecificsymptomdescriptionsbediagnosedandtreated

2.给定客户服务工作流程，在现实生活场景中，如何回应用户的问题？

Howtorespondtoauser’squestioninareal-lifescenario

例如，在制药领域，LLM必须解释FDA指南文件，以评估特定药物申请是否符合监管要求；在客户支持场景中，LLM必须导航预定义工作流程的复杂性，以有效处理用户查询；在医疗领域，模型需要遵循诊断手册，其中提供了权威和标准化的诊断标准，如管理急性胸痛患者的指南，通过有效遵循外部理由，可以开发出一个专门的LLM专家系统来管理胸痛。

上述过程涉及到理解程序步骤和决策树，指导支持智能体与客户的互动，确保回复不仅准确，而且符合公司的服务标准和协议。

研究人员根据所涉及理由的性质，将这些查询分为两类：基于可解释理由的查询和基于隐含理由的查询。

第一类查询通常更显式，辅助数据通常包括用于解决问题的思维过程的清晰解释，数据可以以多种形式进行组织：

1.纯文本，包括专业或官方文件，如手册或指南，以及特定领域的手册或操作指南，阐述了在复杂场景中促进决策的思维过程。如FDA针对制药厂的指南或医生的药物指南提供了专家（如FDA官员或医生）如何处理特定案例的见解。

2.结构化指导，包括更明确的推理关系或决策路径，可以表示为文本条件摩尔机或文本条件米利机。在计算理论中，摩尔机是一种有限状态机，其输出值仅由其当前状态决定，控制状态转换的条件通常以文本形式表达，与传统程序操作本地代码不同的是，大模型需要解释条件和转换理由。

1.提示优化成本，不同的查询需要量身定制的背景知识和决策标准，需要多样化的样例，如果是训练一个额外的模型为各种查询生成定制的提示，会显著增加计算开销。

2.可解释性不足，提示对LLMs的影响是不透明的，限制了对LLMs内部参数的访问，使得确定各种提示对这些模型的影响变得复杂。这种缺乏透明度阻碍了我们一致理解和验证LLM对不同提示回复的可解释能力。

级别四：隐式理由查询（HiddenRationaleQueries）

1.经济形势将如何影响公司未来的发展？（给定一系列财务报告，需要经济和财务理由）

2.如何使用数字5、5、5和1达到24点？（给定一系列24点游戏示例和相应的答案）

3.阿富汗是否允许父母将他的或她的公民身份传给在国外出生的孩子？（给定GLOBALCIT公民法数据集）

隐式理由查询是最难处理的类型，涉及特定领域的推理方法，且数量众多，无法穷尽，并且理由通常无法在上下文窗口内完全探索，隐含的领域专业知识包括但不限于：

1.领域内数据，如历史问答记录或人工生成的数据，包含了解决当前查询所需的推理技能或方法论。例如，在Python编程谜题的背景下，历史问题的解决方案通常包括可以帮助解决当前问题的古典算法和解决问题的策略。

2.预备知识，可能包含一个全面的公理系统，如构成法律判断基础的所有地方法律代码，或是包括简化数学证明等领域推理过程的经过验证的中间结论。在使用外部数据解决现实世界问题时，这种先验知识也可能来自于复杂的人类经验和经验总结的积累。

1.逻辑检索：对于涉及隐藏理由的问题，外部数据的有用性不仅仅取决于实体级或语义相似性，而是取决于逻辑一致性或主题对齐。

标准检索方法通常难以捕捉查询的真正目标或识别基于呈现的问题的具有逻辑相似性的文本段落，需要开发出更复杂的检索算法，以解析和识别潜在的逻辑结构，而不仅仅依赖于表面的文本相似性。

THE END

RAG没有银弹！四级难度，最新综述覆盖数据集解决方案，教你「LLM+外部数据」的正确使用姿势算法数据源上下文奥运会

RAG没有银弹！四级难度，最新综述覆盖数据集解决方案，教你「LLM+外部数据」的正确使用姿势算法数据源上下文奥运会

猫狗识别训练不该相遇在秋天

实战迁移学习VGG19ResNet50InceptionV3实践猫狗大战问题

深度学习迁移学习方法的妙用（有效提升准确率）专栏

深度学习视角下的猫狗图像识别实现