RAG检索精度的优化与RAG效果评估!

数据清洗和预处理

在RAG索引流程中,文档解析之后、文本块切分之前,进行数据清洗和预处理能够有效减少脏数据和噪声。

  • 提升文本的整体质量和信息密度。

通过清除冗余信息、统一格式、处理异常字符等手段,数据清洗和预处理过程确保文档更加规范和高质量。

  • 从而提高RAG系统的检索效果和信息准确性。

处理冗余的模板内容:

在企业内部文档中,特别是合同或报告等类型的文档,通常会出现大量的重复段落。

  • 例如多个合同中包含相同的法律条款或说明性文字。

这类重复内容会增加向量数据库的存储负担,并影响检索效率。

通过去除冗余内容,能够减少不必要的干扰,提升检索速度和相关性。

处理前:

1
2
3
4
5
6
……
第⼀条:责任条款
第⼆条:服务条款
第⼀条:责任条款 # 重复的内容
第⼆条:服务条款 # 重复的内容
……

处理后:

1
2
3
4
……
第⼀条:责任条款
第⼆条:服务条款
……

消除文档中的额外空白和格式不一致:

文档中可能存在多余的空行、缩进或其他格式不一致的情况。

  • 这些多余的空白和格式会影响文本块的切分和向量化过程。

通过清理这些格式化问题,能够确保文本块的划分更加精准,减少分块过程中的误差。

处理前:

1
2
产品介绍:
我们的产品……

处理后:

1
产品介绍:我们的产品……

去除文档脚注、⻚眉⻚脚、版权信息:

在文档解析时,可能会从网⻚或PDF中提取出脚注、版权声明、⻚眉⻚脚等无关信息。

这些内容会增加数据的噪声,影响向量生成的精度。

  • 去除这些无关的⻚脚和版权信息,有助于提升文本块的语义密度。

查询扩展

在RAG系统的典型检索步骤中,用户的查询会转化为向量后进行检索,但单个向量查询只能覆盖向量空间中的一个有限区域。

  • 如果查询中的嵌入向量未能包含所有关键信息,那么检索到的文档块可能不相关或缺乏必要的上下文。

因此,单点查询的局限性会限制系统在庞大文档库中的搜索范围,导致错失与查询语义相关的内容。

查询扩展策略:

通过大模型从原始查询语句生成多个语义相关的查询,可以覆盖向量空间中的不同区域,从而提高检索的全面性和准确性。

这些查询在嵌入后能够击中不同的语义区域,确保系统能够从更广泛的文档中检索到与用户需求相关的有用信息

通过这种查询扩展策略,原始问题被分解为多个子查询,每个子查询独立检索相关文档并生成相应的结果。

  • 随后,系统将所有子查询的检索结果进行合并和重新排序。

此方法能够有效扩展用户的查询意图,确保在复杂信息库中进行更全面的文档检索。

  • 从而避免遗漏与查询语义密切相关的重要内容。

自查询

在将用户查询转化为向量的过程中,无法确保查询中的所有关键信息都被充分捕捉到向量中。

例如,若希望检索结果依赖于查询中的标签,直接通过嵌入向量进行检索并不能确保这些标签在向量表示中被完整表达。

  • 或者在与其他向量的距离计算中占有足够的权重。

这种不足可能会导致检索结果缺乏相关性和准确性。

自查询策略:

通过大语言模型自动提取查询中对业务场景至关重要的元数据字段(如标签、作者ID、评论数量等关键信息)。

  • 并将这些信息结合到嵌入检索过程中。

通过这种方式,可以确保嵌入向量中包含这些关键信息,从而提高检索的全面性与精确性。

通过这种自查询策略,系统能够精准提取查询中的关键信息,结合关键词检索及向量检索。

确保这些元数据在向量检索中得以充分利用,从而提高检索结果的相关性和准确性。

以下是⾃查询的指令模版:

1
2
3
你是⼀个AI语⾔模型助⼿。
你的任务是从⽤户问题中提取关键信息,你的回复应仅包含提取的关键信息。
⽤户问题:{查询原⽂}

假设原始查询问题为: 下⾯报告中涉及了哪⼏个⾏业的案例以及总结各⾃⾯临的挑战?

通过⾃查询指令,GPT⽣成如下结果:

1
⾏业,案例,挑战

提示压缩

提示压缩旨在减少上下文中的噪声,并突出最相关的信息,从而提高检索精度和生成质量。

在RAG系统中,检索到的文档通常包含大量无关的文本,这些无关内容可能会掩盖与查询高度相关的信息。

  • 导致生成结果的相关性下降。

提示压缩通过精简上下文、过滤掉不相关的信息,确保系统只处理与查询最相关、最重要的内容。

通过提示压缩,系统能够准确提取出与查询高度相关的核心信息,去除冗余内容,并返回简洁的压缩结果。

组合成为新的指令,输入大模型获得回复,提高RAG系统答案准确度。

RAG效果评估

评估⽅式:

⼤模型打分:

通过使⽤⼤语⾔模型对RAG的输出进⾏⾃动评分。

这类评估⽅式效率⾼,能够快速处理⼤规模的评估任务,但在准确性上可能受到模型本身偏差的影响。

⼈⼯打分:

由⼈类评审员对RAG的输出进⾏逐⼀打分。

⼈⼯评估⽅式可以提供更为精确、细致的反馈,特别是在检测⽣成答案中的细微错误和幻觉时,但其耗时较⻓,成本较⾼。