需借助rag架构实现私有文档问答:一、文档切分与清洗;二、用bge-small-zh-v1.5嵌入+chromadb建库;三、检索增强提示工程;四、fastapi封装vllm调用deepseek-v2;五、多类问题验证可追溯性。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望让AI模型基于您私有文档的内容生成准确、可信的回答,但模型本身未在这些文档上微调或训练,则需要借助检索增强生成(RAG)架构。DeepSeek系列模型(如DeepSeek-V2、DeepSeek-Coder或DeepSeek-MoE)可作为RAG系统中的生成器组件,配合外部向量检索模块实现私有知识问答。以下是构建该系统的具体步骤:
一、准备私有文档并进行文本切分
原始文档(如PDF、Word、Markdown等)需转换为纯文本,并按语义粒度合理切分为段落或块,确保每个片段具备独立信息完整性,避免跨页断裂或标题孤立。切分质量直接影响后续嵌入与检索精度。
1、使用PyPDF2或pdfplumber解析PDF文档,提取连续文本并去除页眉页脚及页码。
2、对长段落执行滑动窗口切分,设定chunk_size为512字符,overlap为64字符,保留句子边界。
3、过滤掉纯空白、仅含特殊符号或长度不足20字符的碎片,剔除重复段落(通过MD5哈希比对)。
4、为每个文本块添加元数据字段:source_file_name、page_number、chunk_id,便于溯源和结果呈现。
二、使用嵌入模型生成向量并构建向量数据库
需将切分后的文本块映射至高维稠密向量空间,使语义相近的文本在向量距离上更接近。DeepSeek模型本身不提供嵌入接口,因此须选用兼容的开源嵌入模型(如bge-small-zh-v1.5或m3e-base),并与DeepSeek生成器解耦部署。
1、下载并加载bge-small-zh-v1.5模型,使用transformers库调用encode()方法批量生成文本嵌入。
2、将嵌入向量与对应文本块、元数据一同写入ChromaDB本地数据库,设置collection名称为private_knowledge_base。
3、在ChromaDB中启用cosine相似度计算,并配置top_k=5作为默认检索返回数量。
4、执行一次全量索引持久化操作,确保向量数据写入磁盘且服务重启后仍可加载:chroma_client.persist()。
三、实现检索与提示工程协同流程
用户提问时,系统先将问题编码为向量,在向量库中检索最相关文本块,再将检索结果拼接进定制化提示模板,交由DeepSeek模型生成最终回答。此过程需严格控制上下文长度,防止超出模型最大输入限制。
1、对用户query调用同一嵌入模型生成查询向量,执行相似度搜索,获取top_k个匹配块及其score值。
2、按score降序筛选前3个块,合并为context_str,每段前插入标识符“【文档来源】{source_file_name} 第{page_number}页:”。
3、构造系统提示词:“你是一个专业助手,所有回答必须严格基于以下提供的参考资料。若资料中无相关信息,回答‘未找到依据’。”
4、将系统提示、context_str与用户原始问题拼接为完整prompt,通过vLLM或Transformers pipeline调用DeepSeek-V2-7B-Instruct模型进行推理,max_new_tokens设为256,temperature设为0.01以保障准确性。
四、部署轻量级API服务并接入前端
将上述RAG逻辑封装为HTTP接口,支持JSON格式请求/响应,便于集成至网页、桌面或移动端应用。服务需隔离模型加载、向量检索与生成调度,避免阻塞和资源争用。
1、使用FastAPI定义/post/query端点,接收包含question字段的POST请求体。
2、在端点内部依次执行嵌入查询、ChromaDB检索、prompt组装、DeepSeek模型调用四个阶段。
3、响应体中返回answer字段内容,并附加references数组,包含每个引用块的source_file_name、page_number和excerpt片段。
4、启动服务时指定GPU设备ID(如CUDA_VISIBLE_DEVICES=0),并启用vLLM的--tensor-parallel-size=1参数确保单卡适配:python -m vllm.entrypoints.api_server --model deepseek-ai/DeepSeek-V2-7B-Instruct。
五、验证私有知识覆盖与答案可追溯性
系统上线前需针对典型业务问题设计测试集,验证答案是否真实源自私有文档、是否保留关键数值与专有名词、是否拒绝回答库外问题。同时检查引用元数据能否准确定位原文位置,支撑人工复核。
1、准备5类问题样本:定义类(“XX制度的适用范围是什么?”)、流程类(“报销审批需经过哪几个环节?”)、数值类(“2023年Q3销售目标是多少?”)、对比类(“方案A与方案B的主要差异有哪些?”)、否定类(“员工是否可以携带宠物进入办公区?”)。
2、逐条提交至API,记录返回answer及references字段内容。
3、人工比对answer中每一事实性陈述是否能在references指向的原文中找到直接依据,标注偏差类型(如张冠李戴、数值偏移、无中生有)。
4、对出现偏差的问题,检查对应chunk是否被错误切分或嵌入失真,并重新运行该文档的切分+嵌入+入库全流程:确保chunk_id与原始文件行号/页内坐标一一映射。











