0

0

C# 文件内容语义搜索 C#如何结合向量数据库实现文件的语义搜索

煙雲

煙雲

发布时间:2026-03-05 09:39:10

|

156人浏览过

|

来源于php中文网

原创

应先清洗分块再向量化:pdf用pdfpig提取文本,recursivecharactertextsplitter切块(512/64),每块单独embed;选qdrant作向量库,建集时设size=1536、distance.cosine,插入带payload,查询时searchrequest需显式启用withpayload=true、scorethreshold=0.3。

c# 文件内容语义搜索 c#如何结合向量数据库实现文件的语义搜索

OpenAIEmbedding 生成文件内容向量,别直接喂原始文本

文件语义搜索的核心不是“搜关键词”,而是把文件内容转成能比较的向量。C# 里最直接的路是用 OpenAIEmbedding(比如 text-embedding-3-small),但很多人一上来就拿整篇 PDF 或 Word 的原始字符串丢进去——结果要么超长报错 400 Bad Request: invalid_request_error,要么向量质量差、检索不准。

真正该做的,是先做内容清洗和分块:

  • PDF 文件用 PdfPigIronPdf 提取纯文本,跳过页眉页脚、表格结构、页码
  • 按语义切分:用 RecursiveCharacterTextSplitter(来自 LangChain.Chains)按句号/换行切,chunkSize=512chunkOverlap=64 是较稳的起点
  • 每块文本送进 CreateEmbeddingAsync,别拼成大段再 embed —— OpenAI 对单次输入长度有限制,且语义粒度会糊掉

Qdrant 而不是 Elasticsearch 做向量库,除非你已有 ES 且启用了 knn

C# 生态里对接向量数据库,Qdrant 是目前最省心的选择。它原生支持点积/余弦距离、filter + search 混合查询、HTTP/gRPC 双协议,C# 客户端 Qdrant.Client 包封装干净。而 Elasticsearch 虽然熟悉,但它的 knn 搜索在 8.x 后才稳定,且需要单独开 vector 字段、设 index_options,稍不注意就查不到结果。

关键配置差异:

  • 建集合时,Qdrant 必须指定 VectorParamsSize(比如 1536)和 Distance(推荐 Distance.Cosine
  • 插入数据前,确保每条记录带 payload:至少含 source_file_pathchunk_indextext_preview,否则搜到结果根本不知道来自哪份文件哪一段
  • 查询时用 SearchRequest,别用 ScrollQuery——后者不走向量索引

SearchAsync 返回结果没排序?检查 WithPayloadWithVector 是否漏设

QdrantClient.SearchAsync 后发现结果 Score 全是 0,或者顺序乱、不按相似度降序排——大概率是忘了在请求里显式启用 payload 和 score 解析。

SEEK.ai
SEEK.ai

AI驱动的智能数据解决方案,询问您的任何数据并立即获得答案

下载

Qdrant.Client 默认不返回 payload,也不保证 Result 列表按 score 排。必须写全:

new SearchRequest
{
    Vector = embedding,
    Limit = 5,
    WithPayload = true, // 不加这句,payload 是 null
    WithVector = false, // 一般不用返回向量本身,关掉省带宽
    ScoreThreshold = 0.3f // 过滤掉明显不相关的(cosine 距离下 0.7 以上才较可信)
}

另外,Score 在 cosine 场景下是 [−1, 1] 区间,值越接近 1 越相似;如果用的是 Distance.Euclidean,那 score 是距离值,越小越好——别看名字想当然。

本地调试时别用 localhost:6333 直连 Qdrant,先确认 Docker 容器网络可通

Windows 上用 Docker Desktop 起 qdrant/qdrant,C# 程序跑在宿主机,连 http://localhost:6333 却超时或返回 Connection refused,不是代码问题,是网络没通。

常见断点位置:

  • Docker Desktop 设置里关了 Use the WSL 2 based engine?开了反而容易 DNS 解析失败,建议关掉并重启 Docker
  • 容器启动命令漏了 -p 6333:6333,或者 Windows 防火墙拦了 6333 端口
  • curl http://localhost:6333/health 能通,但 C# 报错?检查 HttpClient 是否设了 Timeout 太短(默认 100 秒够用),以及是否用了 http://127.0.0.1:6333(某些 .NET 版本对 localhost 解析更稳)

向量搜索真正难的不是调通 API,而是让 chunk 有区分度、让 filter 条件能和向量 query 同时生效、还有 embedding 模型更新后旧向量不能混查——这些都得在第一次入库时就想好版本标记和元数据结构。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

454

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

698

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

646

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1148

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1122

2024.04.29

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

32

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.7万人学习

C 教程
C 教程

共75课时 | 5.2万人学习

C++教程
C++教程

共115课时 | 20.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号