0

0

Python joblib 的内存映射序列化

舞夢輝影

舞夢輝影

发布时间:2026-02-16 16:37:54

|

593人浏览过

|

来源于php中文网

原创

joblib.dump 不支持 mmap_mode 参数,该参数仅对 joblib.load 有效;正确用法是 dump 时不传,load 时指定 'r' 或 'c' 以实现大数组内存映射。

python joblib 的内存映射序列化

joblib.dump 用 mmap_mode='r' 为什么反而报错?

因为 mmap_mode 只对 joblib.load 生效,dump 时传了也直接忽略。常见错误是看到文档里写了 mmap_mode,就顺手塞进 dump 调用里,结果既没效果,还可能掩盖真正问题。

真正起作用的场景是:先用 joblib.dump(obj, 'data.pkl') 存好,之后在 load 时加 mmap_mode='r''c',让大数组不全载入内存。

  • mmap_mode='r':只读映射,适合只读分析,进程退出后自动释放
  • mmap_mode='c':copy-on-write,允许修改但不写回磁盘,适合临时计算
  • 如果文件被其他进程锁住、或路径不存在、或权限不足,load 会抛 OSError: [Errno 22] Invalid argument
  • Windows 上对 mmap 支持较弱,尤其 NTFS 压缩文件夹或 OneDrive 同步目录里,容易触发 ValueError: mmap length is greater than file size

哪些对象能从 mmap_mode 真正受益?

只有内部含大型 numpy.ndarray(且 dtype 是基础类型如 float64int32)的对象才走内存映射路径。普通 dict、list、pandas DataFrame(底层虽用 ndarray,但 joblib 默认不 mmap 其 block)、自定义类实例——统统不映射,还是全量反序列化。

验证方法:用 joblib.load('x.pkl', mmap_mode='r') 加载后,检查关键数组的 .base 是否为 mmap.mmap 实例:

立即学习Python免费学习笔记(深入)”;

Grammarly
Grammarly

Grammarly是一款在线语法纠正和校对工具,伟大的AI辅助写作工具

下载
import numpy as np
arr = joblib.load('big_array.pkl', mmap_mode='r')
print(type(arr.base))  # 应该是 <class 'mmap.mmap'>
  • 小数组(默认小于 1MB)即使指定 mmap_mode 也不会映射,joblib 认为不值得开销
  • 如果数组是 view(比如 a[::2]),则 .base 指向原 mmap,但自身仍算“映射数组”
  • 混用不同 dtype 的结构化数组(如 np.dtype([('x', 'f4'), ('y', 'i8')]))可能 fallback 到普通加载

多进程共享同一个 joblib 文件,mmap_mode='r' 安全吗?

安全,前提是所有进程都只读。多个进程同时以 mmap_mode='r' 打开同一文件,底层共用同一段物理内存页,零拷贝、低延迟、省内存。

但要注意:

  • 不能有任一进程用 mmap_mode='r+''w+',否则触发写时复制(COW)或直接报错
  • 文件不能被外部程序(如文本编辑器、IDE)意外修改,否则 mmap 区域内容会突变,导致静默计算错误
  • Linux 下若文件被 truncate 缩小,已映射区域访问会触发 Signal 7 (SIGBUS),Python 进程直接崩溃,无 traceback
  • joblib 不做文件锁,靠使用者保证“写完再读”,推荐用原子重命名(os.replace())更新文件

替代方案:什么时候该放弃 joblib mmap,改用 np.memmap

当你要精细控制数据布局、需要随机访问子区间、或必须跨语言(如 C/Fortran)读取时,joblib 的封装反而碍事。它把 mmap 隐藏在 pickle 流里,没法跳过 header 直接寻址。

例如处理 TB 级遥感影像切片,常用做法是:

arr = np.memmap('data.bin', dtype='float32', mode='r', shape=(10000, 10000))
tile = arr[1000:1100, 2000:2100]  # 零拷贝切片
  • np.memmap 明确分离“文件布局”和“逻辑视图”,调试时可直接用 hexdump 查看二进制
  • joblib 的 mmap 是 pickle 协议的一部分,无法用非 Python 工具解析
  • 如果你的 pipeline 里已有大量 np.memmap 逻辑,硬套 joblib 反而增加序列化/反序列化开销

复杂点在于:joblib 的 mmap 是“透明”的,你几乎感觉不到;而 np.memmap 要自己管 shape、dtype、offset,错一点就 segfault。别为了省几行代码,把内存地址当玩具玩。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

74

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

4

2026.01.31

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

947

2023.09.19

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

47

2025.09.03

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

47

2025.09.03

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1520

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

714

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

300

2023.06.30

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

145

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号