DeepSeek与LangChain结合：构建基于个人文档的问答系统

煙雲

发布时间：2026-02-15 12:09:11

295人浏览过

来源于php中文网

原创

需完成模型接入、文档加载、向量化与检索链路协同配置：一、结构化预处理文档为document对象并添加元数据；二、用recursivecharactertextsplitter语义分块；三、以transformers或api方式接入deepseek模型；四、用bge-small-zh-v1.5嵌入+chroma构建向量库；五、通过retrievalqa组装问答链并注入上下文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

deepseek与langchain结合：构建基于个人文档的问答系统

如果您希望利用DeepSeek大语言模型与LangChain框架，基于本地个人文档构建一个可私有化部署的问答系统，则需要完成模型接入、文档加载、向量化与检索链路的协同配置。以下是实现该系统的具体步骤：

一、准备本地文档并进行结构化预处理

该步骤旨在将非结构化文档（如PDF、TXT、Markdown等）转换为LangChain可识别的Document对象，并保留原始语义与元数据，为后续切分和嵌入提供基础。

1、将所有待检索的文档统一存放至指定文件夹，例如./docs/，支持格式包括.pdf、.txt、.md、.docx。

2、使用LangChain内置加载器按类型实例化：对于PDF使用PyPDFLoader，对于Markdown使用UnstructuredMarkdownLoader，对于纯文本使用TextLoader。

3、对每个加载后的Document对象添加source字段，值为原始文件路径；添加page字段（若适用），用于溯源定位。

二、使用文本分割器进行语义分块

避免单次输入超出模型上下文长度限制，并提升检索精度，需将长文档按语义边界切分为固定大小且重叠的文本块。

1、选用RecursiveCharacterTextSplitter，设置chunk_size=512，chunk_overlap=64。

2、调用split_documents()方法对全部Document列表执行切分，生成细粒度文本块集合。

3、过滤掉空字符串或仅含空白符的块，确保每块至少包含3个以上有效中文字符或单词。

三、配置DeepSeek模型作为LLM后端

LangChain需通过兼容接口调用DeepSeek模型，当前推荐使用transformers + pipeline方式封装，或通过OpenAI兼容API代理转发请求。

1、安装deepseek-ai官方推理库：pip install deepseek-vl 或对应版本的deepseek-coder包（依模型类型而定）。

万兴喵影

国产剪辑神器

下载

2、初始化HuggingFacePipeline，加载本地DeepSeek模型权重路径，设置temperature=0.3、max_new_tokens=512。

3、若使用API方式，需启动DeepSeek官方提供的openai-compatible server，并将base_url设为http://localhost:8000/v1，model_name设为deepseek-chat。

四、构建向量存储与检索器

将文本块转化为高维向量并存入本地向量数据库，使自然语言问题能匹配最相关文档片段。

1、选用sentence-transformers中的bge-small-zh-v1.5作为嵌入模型，确保中英文混合场景下语义表征能力。

2、使用Chroma作为向量存储后端，设置persist_directory="./chroma_db"以支持持久化保存。

3、调用Chroma.from_documents()方法，传入切分后的文本块与嵌入模型，生成可查询的vectorstore实例。

4、配置similarity_search_with_score参数，限定top_k=3，并启用score_threshold=0.35以排除低置信度匹配项。

五、组装问答链并注入检索逻辑

将用户问题、检索结果与DeepSeek模型响应三者串联，形成端到端问答流程，其中检索结果作为上下文注入模型提示词。

1、定义PromptTemplate，模板中包含{context}占位符用于插入检索内容，{question}用于插入原始提问。

2、使用RetrievalQA.from_chain_type构造问答链，chain_type设为stuff，retriever设为上一步生成的vectorstore.as_retriever()。

3、在调用run()前，确保输入问题经过去噪处理：移除连续空格、全角标点替换为半角、截断超长输入至256字符以内。

即梦AI模型权重怎么调节_即梦AI提示词影响力精准控制指南【进阶】

豆包AI的声音市场有什么好玩的？热门音色推荐

可灵AI怎么设置首尾帧_可灵AI视频首尾固定与精准控制教程【技巧】

千问AI怎么根据代码写单元测试_通义千问测试用例生成【方法】

告别加班：用豆包AI自动生成工作周报和日报

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

ai deepseek Agent智能体 AI编程开发文档处理智能编程 AI大模型

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：豆包AI写朋友圈文案，点赞量翻倍的秘密下一篇：暂无

作者最新文章

手机发票查验快速入口微信发票查验官方小程序

2026-02-13 16:39

Safari浏览器怎么拦截广告 Safari浏览器拦截广告插件设置方法

2026-02-13 16:40

个人所得税综合所得汇算入口手机个税申报入口

2026-02-13 16:43

Chrome怎么导出书签 Chrome导出书签教程

2026-02-13 16:53

如何通过任务计划程序彻底关闭Win11更新？永久禁更图文教程

2026-02-13 16:55

浏览器打不开HLS视频怎么办浏览器支持M3U8视频播放方法

2026-02-13 17:11

浏览器网页翻译功能怎么用网页一键翻译设置方法【教程】

2026-02-13 17:13

抖音怎么换视频背景抖音拍摄绿幕抠图换背景方法【教程】

2026-02-13 17:15

12306怎么选择铺位？卧铺上下铺可以自己挑吗？【指南】

2026-02-13 17:23

Win10怎么查看显卡驱动是否支持光线追踪 Windows10显卡参数检查教程

2026-02-13 17:27

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式，涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明，帮助用户高效找到pixiv官方网站，实现便捷、安全的网页端浏览与账号登录体验。

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式，涵盖首页直达地址、账号登录流程与常见访问问题说明，帮助用户快速找到微博官网主页，实现便捷、安全的网页端登录与内容浏览体验。

2026.02.13

Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开，系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示，帮助开发者构建流畅、可维护的跨平台移动应用。

2026.02.13

TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者，深入讲解 TypeScript 类型系统与大型项目结构设计方法，并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例，帮助开发者提升代码可维护性与开发效率。

2026.02.13

Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开，系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示，帮助开发者构建高可用、可扩展的分布式缓存系统。

2026.02.13

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式，涵盖账号登录流程、官方直连入口及平台访问方法说明，帮助师生用户快速进入雨课堂在线教学平台，实现便捷、高效的课程学习与教学管理体验。

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式，涵盖智能写作工具、图片生成体验入口和官网登录方法，帮助用户快速直达豆包AI平台，高效完成文本创作与AI生图任务，实现便捷智能创作体验。

303

2026.02.12

PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师，深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析，帮助开发者提升数据库响应速度与系统稳定性。

2026.02.12

热门下载

网站特效

网站源码

网站素材

前端模板