MongoDB大批量数据迁移怎么写_Cursor逐批获取与bulkWrite结合

P粉602998670

发布时间：2026-03-10 20:52:02

755人浏览过

来源于php中文网

原创

不能直接用find()拿全部数据再bulkwrite()，因toarray()会将全部文档加载到内存导致爆内存；应使用游标分批流式处理，按_id范围续传、每批limit+gt查询、bulkwrite()设ordered:false并捕获writeerrors。

mongodb大批量数据迁移怎么写_cursor逐批获取与bulkwrite结合

为什么不能直接用 `find()` 拿全部数据再 `bulkWrite()`

内存会爆。MongoDB 的 find() 默认返回游标（cursor），但如果你调 .toArray() 或遍历到内存里攒一堆文档，100 万条文档轻松吃掉几 GB 内存——尤其文档带二进制字段或嵌套深时。Node.js 单进程扛不住，Python 的 list(cursor) 同理。

正确做法是让游标“流式吐出”，每批拉固定数量（比如 1000 条），处理完立刻 bulkWrite()，不囤积。

用 cursor.batchSize(n) 只控制网络批次，不保证每次 next() 拿到 n 条；真正可控的是 cursor.limit() + 循环 + skip()（不推荐）或更稳妥的 find({ _id: { $gt: lastId } }) 游标续传
Node.js 驱动 v6+ 推荐用 cursor.tryNext() 或 for await；PyMongo 用 batch_size 参数 + 手动分页逻辑
别依赖 cursor.count() 做总进度——集合大时它本身就很慢，还可能不准（有写入并发）

怎么用 `find()` 游标 + `bulkWrite()` 实现稳定分批

核心是“查一批、写一批、记位置、再查下一批”，关键在如何安全标记“下一批从哪开始”。用 _id 范围分片最稳，尤其 ObjectId 是时间戳前缀，天然有序。

Vozo

Vozo是一款强大的AI视频编辑工具，可以帮助用户轻松重写、配音和编辑视频。

下载

首次查询： db.collection.find({}).sort({ _id: 1 }).limit(1000)
拿到这批最后一条的 _id（比如 lastDoc._id），下次查 { _id: { $gt: lastDoc._id } }
bulkWrite() 时加 { ordered: false }，避免单条失败中断整批；失败项用 writeErrors 字段单独捕获，别直接抛异常
每批执行后加短延时（如 await new Promise(r => setTimeout(r, 10))），减轻源库和目标库压力，也防驱动报 CursorNotFound

Python PyMongo 和 Node.js MongoDB Driver 的关键参数差异

同一逻辑，两边驱动行为不同，容易踩坑。

PyMongo：cursor.batch_size(1000) 影响每次从服务器拉多少文档到本地缓冲区，但 for doc in cursor: 还是逐条迭代；真要分批得手动切片或用 itertools.islice(cursor, batch_size)
Node.js：cursor.limit(1000) 真限制结果数；cursor.toArray() 仍会加载整批进内存，必须用 for await (const doc of cursor) 才流式；v6+ 默认启用 useUnifiedTopology: true，否则游标超时易断
两者都需关掉 noCursorTimeout: true（Node）或设 cursor.no_cursor_timeout = True（PyMongo），否则空闲 10 分钟游标自动销毁

`bulkWrite()` 失败时怎么不丢数据、也不卡死

批量写失败很常见：唯一键冲突、字段类型不符、磁盘满、网络抖动。硬抛错会导致迁移中断，全量重跑成本高。

始终开启 { ordered: false }（Node）或 ordered=False（PyMongo），让成功项先落地
检查 result.writeErrors，对每个 writeErrors[i].errmsg 做分类：若含 "duplicate key"，说明目标库已有该数据，可跳过；若含 "E11000"，同理
把失败文档单独写入临时集合（如 failed_migrate_batch_20240520），后续人工核对或补漏，别混在主流程里重试——重试可能无限循环
每批 bulkWrite() 后校验 result.upsertedCount + result.modifiedCount + result.deletedCount 是否等于输入条数，不等就说明有静默失败（比如权限不足导致插入被忽略）

最麻烦的不是写法，是游标生命周期和网络波动之间的博弈。哪怕逻辑写对了，没设好超时、没处理好游标失效、没给 bulkWrite() 加重试退避，跑一晚上还是可能在第 87 批崩掉。

相关标签:

count sort for const 循环堆 Collection 切片并发 JS promise mongodb

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：MongoDB心跳机制多久检测一次_heartbeatIntervalMillis参数调整下一篇：暂无

作者最新文章

如何在Golang中利用Kind搭建本地K8s集群 Go语言CI环境容器化

2026-03-10 09:23

如何在Golang中利用Cert-Manager管理证书 Go语言TLS自动化配置

2026-03-10 09:25

如何在Golang中通过反射获取接口的底层具体值 Go语言动态类型剥离

2026-03-10 09:25

快手怎么加入粉丝团_快手主播粉丝牌

2026-03-10 09:26

如何在Golang中解决Checksum Mismatch错误 Go语言go.sum校验机制解析

2026-03-10 09:28

mysql如何从5.7升级到8.0_mysql跨版本大升级指南

2026-03-10 09:28

如何在Golang中利用Math/Big进行高精度浮点运算 Go语言金融计算精度

2026-03-10 09:28

如何在Golang中利用SonarQube检查代码质量 Go语言静态扫描流水线

2026-03-10 09:31

CSS如何给元素添加实线边框_通过border-style和width定义css

2026-03-10 09:32

mysql升级后用户权限会丢失吗_mysql权限迁移方案

2026-03-10 09:33

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

409

2023.09.04

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

562

2023.09.20

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

441

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

603

2023.08.10

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

576

2023.07.28

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板