构建个人知识库需四步:一、用Ollama+ChromaDB实现本地向量检索;二、用RAGFlow搭建可视化管理界面;三、以Obsidian+插件构建双向链接知识图谱;四、部署LiteLLM统一调度多模型。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望构建一个可长期积累、随时调用且能被AI理解的知识体系,则需要将分散的信息转化为结构化、可检索、语义连贯的数据集合。以下是搭建个人知识库的具体步骤:
一、选择支持向量检索的本地知识库框架
该方法通过将文档切片并嵌入为向量,使AI能基于语义而非关键词匹配内容,适合非结构化文本(如笔记、PDF、网页存档)的深度理解与召回。
1、下载并安装Ollama,运行命令ollama run mxbai-embed-large启用嵌入模型。
2、克隆ChromaDB开源项目至本地目录,执行pip install chromadb完成依赖安装。
3、在Python脚本中初始化持久化客户端:client = chromadb.PersistentClient(path="./my_knowledge_db")。
4、创建集合时指定嵌入函数:collection = client.create_collection(name="personal_knowledge", embedding_function=embedding_function)。
5、对每份文档执行分块(chunk_size=512)、清洗(去除页眉页脚/HTML标签)后调用collection.add()写入向量库。
二、使用RAGFlow构建可视化知识管理界面
该方案提供图形化上传、自动解析与多格式预览能力,降低非技术用户操作门槛,同时保留LLM增强检索逻辑。
1、从GitHub获取RAGFlow最新Release包,解压后进入目录执行docker-compose up -d启动服务。
2、浏览器访问http://localhost:3000,注册账号并登录控制台。
3、点击“新建知识库”,填写名称后选择Embedding Model为BGE-ZH,Reranker Model设为BGE-Reranker。
4、拖拽PDF、Markdown或TXT文件至上传区,系统自动执行OCR(图片类)、表格识别、段落切分与向量化。
5、在“知识库详情页”点击“测试问答”,输入如何查询2023年Q3销售数据?,观察返回片段是否包含原始报表中的数值行。
三、基于Obsidian+Plugins实现双向链接知识图谱
该路径强调人工认知建模,通过手动建立概念关联形成可推理的知识网络,配合AI插件实现自然语言查询补全与上下文推演。
1、安装Obsidian桌面端,启用Core Plugin中的Graph View与Tag Pane。
2、在设置中开启Files & Links → New link format → [[Wikilink]],统一内部跳转语法。
3、为每个主题新建MD文件,标题采用# 人工智能伦理形式,正文中使用[[数据隐私]]、[[算法偏见]]插入双向链接。
4、安装Community Plugin Text Generator,配置API密钥指向本地Ollama的llama3.2模型地址。
5、选中某段文字后右键选择Generate text with AI,输入提示词请根据当前段落延伸三个相关研究问题,并用[[ ]]标注术语。
四、部署LiteLLM代理层统一调度多模型能力
该方式解决不同知识源需适配各异模型接口的问题,将OpenAI、Ollama、Groq等后端抽象为标准OpenAI格式,便于后续扩展检索策略。
1、执行pip install litellm,创建配置文件,定义ollama/llama3.2与openai/gpt-4o-mini两个provider。
2、编写Python服务脚本,调用litellm.completion()时传入model="ollama/llama3.2"及messages=[{"role":"user","content":"总结以下知识片段:..."}]。
3、修改ChromaDB检索逻辑,在query_results = collection.query(...)后追加response = litellm.completion(model="openai/gpt-4o-mini", messages=[...])。
4、将原始向量匹配结果拼接进system prompt:“你是一名知识库助手,仅依据以下上下文回答问题:{retrieved_texts}”。
5、启动Flask API服务,接收前端POST请求中的用户问题,返回经LLM重排与摘要后的最终答案。










