0

0

怎么使用Python多进程并发下载MongoDB GridFS中的多个文件

P粉602998670

P粉602998670

发布时间:2026-03-18 10:29:01

|

494人浏览过

|

来源于php中文网

原创

子进程必须独立创建MongoClient和GridFS实例,不可复用父进程对象;需流式读取避免OOM;参数须可pickle,ObjectId要转字符串;务必显式调用client.close()防止连接泄漏。

怎么使用python多进程并发下载mongodb gridfs中的多个文件

multiprocessing 启动子进程时,为什么总卡住或报 BrokenPipeError

GridFS 连接对象(GridFS 实例或底层 MongoClient)不能跨进程共享。子进程中直接复用父进程创建的 GridFS 对象,会触发连接状态混乱,常见表现是进程 hang 住、抛 BrokenPipeErrorConnectionResetError

  • 每个子进程必须自己新建 MongoClientGridFS 实例——不能传入父进程的对象
  • 避免在全局作用域初始化客户端;把连接逻辑放进子进程函数内部,或用 initializer + 全局变量(需注意线程/进程安全)
  • 显式调用 client.close()(尤其在频繁启停进程时),否则可能耗尽 socket 或 MongoDB 连接数
def download_one_file(file_id):
    # ✅ 正确:子进程内独立建连
    client = MongoClient('mongodb://localhost:27017/')
    fs = GridFS(client['mydb'])
    try:
        grid_out = fs.get(file_id)
        with open(f'file_{file_id}.bin', 'wb') as f:
            f.write(grid_out.read())
    finally:
        client.close()  # 防止连接泄漏

concurrent.futures.ProcessPoolExecutor 还是原生 multiprocessing.Pool

两者都能用,但 ProcessPoolExecutor 更轻量、异常传播更直观,适合“下载一批文件”这种无状态任务;multiprocessing.Pool 在需要精细控制进程生命周期(如预热连接池)时略灵活。

  • 优先选 concurrent.futures.ProcessPoolExecutor:它自动处理异常捕获和结果收集,出错时不会静默吞掉错误
  • 别设过大的 max_workers(比如 > CPU 核心数 × 2):GridFS 下载本质是 I/O 密集型,但 MongoDB 连接和网络带宽才是瓶颈,通常 4–8 足够
  • 如果文件数量极大(如上万),别一次性 submit 所有任务,改用 map 或分批提交,防内存堆积

下载大文件时内存暴涨甚至 OOM

默认调用 grid_out.read() 会把整个文件读进内存。一个 500MB 的文件就占掉同等内存,多进程并发时极易触发系统 OOM。

  • 必须流式写入:for chunk in grid_out 或手动 .read(chunk_size),推荐 chunk_size = 8192 或 65536
  • 别用 fs.get(file_id).read() 直接赋值给变量
  • 注意:GridFS 的 chunk 默认大小是 255KB,但读取时仍建议按小块处理,避免单次分配过大内存页
def download_one_file(file_id):
    client = MongoClient('mongodb://localhost:27017/')
    fs = GridFS(client['mydb'])
    try:
        grid_out = fs.get(file_id)
        with open(f'file_{file_id}.bin', 'wb') as f:
            while True:
                chunk = grid_out.read(8192)  # ✅ 流式读
                if not chunk:
                    break
                f.write(chunk)
    finally:
        client.close()

怎么安全传入 file_id 和自定义参数(如目标路径、数据库名)

file_id 必须是 JSON 序列化安全的类型(ObjectId 不行),且所有参数都要能被 pickle ——这是多进程通信的基础限制。

Bg Eraser
Bg Eraser

图片物体抹除和清理

下载

立即学习Python免费学习笔记(深入)”;

  • ObjectId 前先转成字符串:str(obj_id),子进程中再用 ObjectId(str_id) 还原
  • 数据库名、集合名、输出路径等字符串参数可直接传,但路径要注意各进程间的写冲突(别让多个进程写同一个文件)
  • 不要传函数、类实例、打开的文件句柄、数据库连接等不可序列化对象
  • 若需共享配置(如 MongoDB URI),建议用环境变量或配置文件,而非参数传递

MongoDB 的连接池和 GridFS 的 chunk 读取机制,在多进程下容易暴露边界问题:不是代码写错,而是对“进程隔离性”的直觉偏差。最常漏掉的是子进程里没关 client,跑一会儿就连不上了。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

458

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

84

2025.09.10

全局变量怎么定义
全局变量怎么定义

本专题整合了全局变量相关内容,阅读专题下面的文章了解更多详细内容。

102

2025.09.18

python 全局变量
python 全局变量

本专题整合了python中全局变量定义相关教程,阅读专题下面的文章了解更多详细内容。

126

2025.09.18

c++ 全局变量
c++ 全局变量

本专题整合了c++全局变量的使用、定义、作用域等等内容,阅读专题下面的文章了解更多详细内容。

3

2026.03.17

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

2

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号