用DeepSeek构建RAG（检索增强生成）系统，让AI回答基于你的私有文档

畫卷琴夢

发布时间：2026-02-19 20:11:57

560人浏览过

来源于php中文网

原创

需借助rag架构实现私有文档问答：一、文档切分与清洗；二、用bge-small-zh-v1.5嵌入+chromadb建库；三、检索增强提示工程；四、fastapi封装vllm调用deepseek-v2；五、多类问题验证可追溯性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用deepseek构建rag（检索增强生成）系统，让ai回答基于你的私有文档

如果您希望让AI模型基于您私有文档的内容生成准确、可信的回答，但模型本身未在这些文档上微调或训练，则需要借助检索增强生成（RAG）架构。DeepSeek系列模型（如DeepSeek-V2、DeepSeek-Coder或DeepSeek-MoE）可作为RAG系统中的生成器组件，配合外部向量检索模块实现私有知识问答。以下是构建该系统的具体步骤：

一、准备私有文档并进行文本切分

原始文档（如PDF、Word、Markdown等）需转换为纯文本，并按语义粒度合理切分为段落或块，确保每个片段具备独立信息完整性，避免跨页断裂或标题孤立。切分质量直接影响后续嵌入与检索精度。

1、使用PyPDF2或pdfplumber解析PDF文档，提取连续文本并去除页眉页脚及页码。

2、对长段落执行滑动窗口切分，设定chunk_size为512字符，overlap为64字符，保留句子边界。

3、过滤掉纯空白、仅含特殊符号或长度不足20字符的碎片，剔除重复段落（通过MD5哈希比对）。

4、为每个文本块添加元数据字段：source_file_name、page_number、chunk_id，便于溯源和结果呈现。

二、使用嵌入模型生成向量并构建向量数据库

需将切分后的文本块映射至高维稠密向量空间，使语义相近的文本在向量距离上更接近。DeepSeek模型本身不提供嵌入接口，因此须选用兼容的开源嵌入模型（如bge-small-zh-v1.5或m3e-base），并与DeepSeek生成器解耦部署。

1、下载并加载bge-small-zh-v1.5模型，使用transformers库调用encode()方法批量生成文本嵌入。

2、将嵌入向量与对应文本块、元数据一同写入ChromaDB本地数据库，设置collection名称为private_knowledge_base。

3、在ChromaDB中启用cosine相似度计算，并配置top_k=5作为默认检索返回数量。

4、执行一次全量索引持久化操作，确保向量数据写入磁盘且服务重启后仍可加载：chroma_client.persist()。

三、实现检索与提示工程协同流程

用户提问时，系统先将问题编码为向量，在向量库中检索最相关文本块，再将检索结果拼接进定制化提示模板，交由DeepSeek模型生成最终回答。此过程需严格控制上下文长度，防止超出模型最大输入限制。

1、对用户query调用同一嵌入模型生成查询向量，执行相似度搜索，获取top_k个匹配块及其score值。

塔猫ChatPPT

塔猫官网提供AI一键生成 PPT的智能工具，帮助您快速制作出专业的PPT。塔猫ChatPPT让您的PPT制作更加简单高效。

下载

2、按score降序筛选前3个块，合并为context_str，每段前插入标识符“【文档来源】{source_file_name} 第{page_number}页：”。

3、构造系统提示词：“你是一个专业助手，所有回答必须严格基于以下提供的参考资料。若资料中无相关信息，回答‘未找到依据’。”

4、将系统提示、context_str与用户原始问题拼接为完整prompt，通过vLLM或Transformers pipeline调用DeepSeek-V2-7B-Instruct模型进行推理，max_new_tokens设为256，temperature设为0.01以保障准确性。

四、部署轻量级API服务并接入前端

将上述RAG逻辑封装为HTTP接口，支持JSON格式请求/响应，便于集成至网页、桌面或移动端应用。服务需隔离模型加载、向量检索与生成调度，避免阻塞和资源争用。

1、使用FastAPI定义/post/query端点，接收包含question字段的POST请求体。

2、在端点内部依次执行嵌入查询、ChromaDB检索、prompt组装、DeepSeek模型调用四个阶段。

3、响应体中返回answer字段内容，并附加references数组，包含每个引用块的source_file_name、page_number和excerpt片段。

4、启动服务时指定GPU设备ID（如CUDA_VISIBLE_DEVICES=0），并启用vLLM的--tensor-parallel-size=1参数确保单卡适配：python -m vllm.entrypoints.api_server --model deepseek-ai/DeepSeek-V2-7B-Instruct。