优化Langchain RAG检索：提升文档匹配准确性

霞舞

发布时间：2025-10-27 13:55:06

778人浏览过

来源于php中文网

原创

优化Langchain RAG检索：提升文档匹配准确性

langchain结合检索增强生成（rag）技术，在构建基于私有文档的问答系统时展现出巨大潜力。然而，开发者常会遇到一个挑战：即便文档中明确包含问题的答案，rag系统也可能无法准确检索到相关的文档片段，导致生成不准确或不完整的回答。这在处理结构化程度较高的faq（常见问题解答）类pdf文档时尤为突出。

RAG检索不准确的常见原因分析

Langchain RAG流程通常涉及文档加载、文本分割、嵌入（Embeddings）和向量存储、以及检索与生成。当检索结果不尽人意时，问题往往出在以下几个环节：

嵌入模型（Embedding Model）的选择： 嵌入模型的质量直接决定了文本语义表示的准确性。如果模型不够强大或与文档内容不匹配，即使语义上非常相似的查询和文档片段，在向量空间中的距离也可能不够近，导致检索失败。初始尝试使用的GPT4AllEmbeddings可能在某些复杂场景下表现不足。
文本分割策略（Text Splitting）： RecursiveCharacterTextSplitter是常用的分割器，但其chunk_size和chunk_overlap参数的设置至关重要。对于FAQ文档，如果一个问答对被分割成多个不完整的块，或者一个块包含了太多不相关的信息，都会影响检索的精确性。
检索器配置： 检索器（vectorstore.as_retriever()）默认通常是相似度检索。如果嵌入质量不高，即使是最佳的检索器也难以发挥作用。
大型语言模型（LLM）的选择与提示词： 尽管主要问题出在检索，但LLM的理解能力和对检索到的上下文的利用能力也会影响最终答案的质量。

优化策略：增强嵌入模型与LLM集成

解决上述问题的关键在于提升嵌入模型的性能和灵活集成更强大的LLM。

1. 采用高性能嵌入模型

将GPT4AllEmbeddings替换为更成熟、在广泛语料上训练过的模型，例如HuggingFace提供的sentence-transformers系列模型，可以显著提高嵌入质量。这些模型能够更好地捕捉文本的语义信息，从而在向量空间中实现更准确的相似度匹配。

以下代码示例展示了如何使用HuggingFaceEmbeddings来构建向量存储：

from langchain.document_loaders import PyPDFLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI, HuggingFaceHub # 导入OpenAI和HuggingFaceHub

# 1. 文档加载
# 假设您的PDF文档位于指定路径
loader = PyPDFLoader("doc.pdf") # 或者 DirectoryLoader('/tmp/', glob="./*.pdf")
documents = loader.load()

# 2. 文本分割
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 3. 嵌入与向量存储 - 使用HuggingFace Embeddings
# 可以选择不同的模型，例如：
# "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2" (多语言，轻量级)
# "bert-base-multilingual-cased" (多语言，更通用)
# "sentence-transformers/all-MiniLM-L6-v2" (英文，高性能)
embeddings = HuggingFaceEmbeddings(
    model_name="bert-base-multilingual-cased" # 选择一个合适的模型
)

persist_directory = "./chromadb_store" # 定义向量数据库的持久化路径
vectordb = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory=persist_directory)
vectordb.persist() # 持久化向量数据库，以便后续复用
print(f"向量数据库已创建并持久化到: {persist_directory}")

# 4. 集成LLM并构建QA链
# 使用OpenAI LLM作为示例
# 请确保您已设置OPENAI_API_KEY环境变量
llm_openai = OpenAI(temperature=0, model_name="text-davinci-003") # 或 "gpt-3.5-turbo" 等

qa_chain_openai = RetrievalQA.from_chain_type(
    llm=llm_openai,
    retriever=vectordb.as_retriever(),
    chain_type="stuff", # 常见的链类型，将所有检索到的文档填充到提示中
    return_source_documents=True
)

question = "您的问题是什么？"
response_openai = qa_chain_openai({"query": question})
print("\n--- OpenAI LLM 响应 ---")
print(response_openai)

# 也可以尝试使用HuggingFaceHub上的开源LLM
# 请确保您已设置HUGGINGFACEHUB_API_TOKEN环境变量
# llm_hf = HuggingFaceHub(
#     repo_id="google/flan-t5-base",
#     model_kwargs={"temperature": 0.6, "max_length": 500, "max_new_tokens": 200}
# )
# # 或者
# # llm_hf = HuggingFaceHub(repo_id="EleutherAI/gpt-neo-2.7B")

# qa_chain_hf = RetrievalQA.from_chain_type(
#     llm=llm_hf,
#     retriever=vectordb.as_retriever(),
#     chain_type="stuff",
#     return_source_documents=True
# )

# response_hf = qa_chain_hf({"query": question})
# print("\n--- HuggingFaceHub LLM 响应 ---")
# print(response_hf)

注意事项：

考拉新媒体导航

考拉新媒体导航——新媒体人的专属门户网站

下载

HuggingFace模型的选择： model_name参数非常重要。对于多语言文档，选择multilingual模型（如bert-base-multilingual-cased或paraphrase-multilingual-MiniLM-L12-v2）是明智的。对于英文文档，all-MiniLM-L6-v2或all-mpnet-base-v2通常表现优异。
本地运行HuggingFace模型： 首次使用时，模型会被下载到本地。确保您的环境有足够的磁盘空间和内存。
持久化向量数据库： 使用vectordb.persist()可以将向量数据库存储到磁盘，避免每次运行时都重新计算嵌入，大大提高效率。

2. 优化文本分割策略

对于FAQ文档，可以尝试以下优化：

语义分割： 考虑在加载文档后，对PDF内容进行预处理，识别出问答对的边界，然后将每个问答对作为一个独立的块进行分割。这可能需要自定义的DocumentLoader或额外的解析逻辑。
调整chunk_size和chunk_overlap： 针对FAQ文档的特点，如果问答对通常较短，可以适当减小chunk_size。chunk_overlap可以帮助保留上下文，但过大可能引入噪声。
元数据利用： 如果FAQ文档的结构允许，可以提取问题编号、章节等作为文档块的元数据。在检索时，可以结合元数据进行过滤，进一步提高精确性。

3. LLM的选择与集成

除了嵌入模型，选择合适的LLM也至关重要。

商业API LLM： OpenAI系列模型（如text-davinci-003或gpt-3.5-turbo）通常具有强大的理解和生成能力，易于集成，但需要API密钥。
开源LLM（通过HuggingFaceHub）： HuggingFaceHub允许您访问HuggingFace上托管的众多开源LLM，如google/flan-t5-base、EleutherAI/gpt-neo-2.7B等。这提供了更大的灵活性和成本效益，但可能需要根据模型特性调整model_kwargs参数（如temperature, max_length, max_new_tokens）。
本地Ollama LLM： 如果您希望在本地运行LLM，Ollama是一个不错的选择。您可以通过OllamaEmbeddings和Ollama LLM类来集成它们。

总结

当Langchain RAG系统在文档检索方面表现不佳时，核心优化方向应放在提升嵌入模型的质量上，例如从GPT4AllEmbeddings转向更专业的HuggingFaceEmbeddings。同时，细致调整文本分割策略以适应文档结构，并灵活选择和配置LLM，是构建高效、准确的RAG问答系统的关键。通过上述优化，可以显著提高系统从复杂文档中准确提取所需信息的能力，从而生成更专业、更可靠的答案。持续的测试和迭代是确保系统性能达到预期的重要环节。

Go模块校验和的Python实现指南

使用 Pydantic 精确描述 Python 复杂字典结构

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

Go 语言：从字节数据高效还原 float32 数组的实践指南

相关专题

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

358

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2082

2023.08.14

vb怎么连接数据库

在VB中，连接数据库通常使用ADO（ActiveX 数据对象）或 DAO（Data Access Objects）这两个技术来实现：1、引入ADO库；2、创建ADO连接对象；3、配置连接字符串；4、打开连接；5、执行SQL语句；6、处理查询结果；7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容，供大家免费下载体验。

256

2023.09.05

vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容，供大家免费下载体验。

326

2023.10.09

数据库对象名无效怎么解决

数据库对象名无效解决办法：1、检查使用的对象名是否正确，确保没有拼写错误；2、检查数据库中是否已存在具有相同名称的对象，如果是，请更改对象名为一个不同的名称，然后重新创建；3、确保在连接数据库时使用了正确的用户名、密码和数据库名称；4、尝试重启数据库服务，然后再次尝试创建或使用对象；5、尝试更新驱动程序，然后再次尝试创建或使用对象。

412

2023.10.16

vb连接access数据库的方法

vb连接access数据库方法：1、使用ADO连接，首先导入System.Data.OleDb模块，然后定义一个连接字符串，接着创建一个OleDbConnection对象并使用Open() 方法打开连接；2、使用DAO连接，首先导入 Microsoft.Jet.OLEDB模块，然后定义一个连接字符串，接着创建一个JetConnection对象并使用Open()方法打开连接即可。

411

2023.10.16

vb连接数据库的方法

vb连接数据库的方法有使用ADO对象库、使用OLEDB数据提供程序、使用ODBC数据源等。详细介绍：1、使用ADO对象库方法，ADO是一种用于访问数据库的COM组件，可以通过ADO连接数据库并执行SQL语句。可以使用ADODB.Connection对象来建立与数据库的连接，然后使用ADODB.Recordset对象来执行查询和操作数据；2、使用OLEDB数据提供程序方法等等。

223

2023.10.19