0

0

如何在 Qdrant 中安全地向已有图像集合追加新数据(而非覆盖重建)

花韻仙語

花韻仙語

发布时间:2026-02-01 16:26:01

|

823人浏览过

|

来源于php中文网

原创

如何在 Qdrant 中安全地向已有图像集合追加新数据(而非覆盖重建)

qdrant 的 `recreate_collection` 会清空旧数据并重建集合,导致历史图像丢失;正确做法是首次用 `create_collection` 初始化集合,后续调用 `upsert_points` 或 `upload_records` 增量添加带唯一 id 的新向量与元数据。

在使用 Qdrant 进行图像相似性搜索时,一个常见误区是误将 recreate_collection 用于日常数据更新——正如你在代码中所做:每次运行 image_to_database() 都会彻底删除原有集合,再重新创建并写入全部图像,这不仅造成历史数据丢失,还带来不必要的计算开销(重复加载模型、提取特征、编码图像等)。

✅ 正确的增量更新流程如下:

  1. 首次初始化集合:仅在数据库为空或需重置时调用 create_collection(注意:若集合已存在,该方法会静默失败,因此建议配合异常处理或先检查);
  2. 后续新增图像:直接调用 upload_records(推荐)或 upsert_points,无需重建集合;
  3. 确保 ID 唯一性:每个新记录必须使用全局唯一的 id(如 UUID、时间戳+哈希、或自增整数——但需跨批次不重复),否则会覆盖已有点。

以下是修正后的关键代码段(仅展示变更部分,其余预处理逻辑保持不变):

讯飞星火
讯飞星火

科大讯飞推出的多功能AI智能助手

下载
# ✅ 替换原来的 recreate_collection 调用
try:
    qclient.create_collection(
        collection_name=collection_name,
        vectors_config=VectorParams(
            size=embedding_length,
            distance=Distance.COSINE
        )
    )
    print(f"✅ Collection '{collection_name}' created.")
except Exception as e:
    print(f"⚠️  Collection already exists or creation failed: {e}")

# ✅ 构造 records 时使用稳定、唯一 ID(避免用 enumerate(idx) —— 它在不同批次中会重复!)
import uuid
records = [
    models.Record(
        id=str(uuid.uuid4()),  # ✅ 强烈推荐:UUID 保证全局唯一
        payload=payload_dicts[idx],
        vector=embeddings[idx].tolist()  # 注意:Qdrant Python SDK 期望 list 而非 tensor
    )
    for idx in range(len(payload_dicts))
]

# ✅ 增量上传(不会影响已有数据)
qclient.upload_records(
    collection_name=collection_name,
    records=records
)
print(f"✅ Uploaded {len(records)} new image embeddings.")

⚠️ 注意事项:

  • embeddings[idx] 是 PyTorch tensor,传入 upload_records 前需转为 Python list(.tolist()),否则会报类型错误;
  • 若你已在生产环境误用了 recreate_collection 多次,可通过 qclient.get_collection(collection_name) 查看当前点数,并用 qclient.retrieve() 抽样验证数据完整性;
  • 对于高频更新场景,可进一步封装为 add_new_images(image_paths: List[str]) 方法,复用已加载的模型与 processor,显著提升吞吐效率;
  • 如需支持批量删除或按条件更新元数据,可结合 delete_points 或 set_payload 等 API 实现精细化管理。

总结:Qdrant 天然支持高效、安全的增量索引构建。摒弃“全量重建”思维,转向“一次建模、持续注入”模式,既能保障数据持久性,又能充分发挥向量数据库的实时检索优势。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

360

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2083

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

413

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

411

2023.10.16

vb连接数据库的方法
vb连接数据库的方法

vb连接数据库的方法有使用ADO对象库、使用OLEDB数据提供程序、使用ODBC数据源等。详细介绍:1、使用ADO对象库方法,ADO是一种用于访问数据库的COM组件,可以通过ADO连接数据库并执行SQL语句。可以使用ADODB.Connection对象来建立与数据库的连接,然后使用ADODB.Recordset对象来执行查询和操作数据;2、使用OLEDB数据提供程序方法等等。

223

2023.10.19

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号