0

0

Python dill vs cloudpickle 的序列化能力

舞姬之光

舞姬之光

发布时间:2026-02-13 19:49:03

|

989人浏览过

|

来源于php中文网

原创

dill能序列化闭包和局部函数是因为它保存字节码、自由变量及整个闭包环境,而pickle仅依赖函数名和模块路径查找,无法处理嵌套作用域对象。

python dill vs cloudpickle 的序列化能力

为什么 dill 能序列化闭包和局部函数,而 pickle 不行?

pickle 默认只认模块顶层定义的函数,一碰到嵌套作用域里的东西(比如 lambda、内部函数、带自由变量的闭包),就直接抛 AttributeError: Can't pickle local object。这是因为 pickle 依赖函数的 <strong>name</strong> 和所在模块路径反向查找,而局部对象没这个路径。

dill 则会把函数体字节码、自由变量值、甚至整个闭包环境都打包进去,相当于“快照式”保存。它不依赖名字解析,所以能序列化:

  • lambda x: x + 1
  • 嵌套函数中引用了外层 def 的变量
  • 类方法里定义的临时函数

但代价是:序列化后体积更大,反序列化更慢,且结果不可跨 Python 版本移植(比如 3.9 序列化的对象在 3.11 可能加载失败)。

cloudpickle 在分布式任务中为什么比 dill 更常用?

cloudpickle 是为分布式计算(如 daskPySparkRay)设计的,它默认禁用危险操作(比如执行任意代码),同时做了几处关键适配:

立即学习Python免费学习笔记(深入)”;

  • 自动剥离当前进程的模块状态(避免把本地未提交的修改带过去)
  • <strong>main</strong> 模块处理更鲁棒(尤其在 Jupyter 或脚本直跑场景下)
  • 支持序列化部分 C 扩展类型(如 numpy.ufunc),但不是全部

常见踩坑点:

PopShort.AI
PopShort.AI

PopShort是一个AI短剧生成平台

下载
  • cloudpickle 不保证能序列化所有 dill 支持的对象(比如某些自定义元类或极深嵌套的动态类)
  • 它对 sys.path 和当前工作目录敏感:如果被序列化的函数引用了相对路径下的模块,反序列化时可能报 ModuleNotFoundError
  • PySpark 中,若 driver 端用了 cloudpickle 序列化函数,executor 端必须有完全一致的包版本,否则容易出现 ImportError 或静默行为差异

什么时候该选 dill,什么时候必须用 cloudpickle

dill 的典型场景:

  • 需要持久化交互式会话(如 Jupyter notebook 里定义的复杂对象)
  • 要保存带装饰器链、functools.partial、或绑定方法的对象
  • 本地调试、热重载、或做轻量级 checkpoint(不涉及跨进程/跨机器)

必须用 cloudpickle 的情况:

  • 使用 dask.distributedray.remote 提交任务
  • PySparkrdd.map()df.foreach() 传入自定义函数
  • 函数里调用了 os.environopen() 等依赖运行时上下文的操作(cloudpickle 会尝试冻结这些状态,dill 不保证)

注意:dillsettings['recurse'] = True 可能导致无限递归(比如对象循环引用),而 cloudpickle 默认不递归进模块对象,更“克制”。

反序列化失败的三个高频原因及验证方式

遇到 ModuleNotFoundErrorAttributeError 时,先别急着换库,检查:

  • 被序列化的函数是否引用了未显式导入的模块?比如在函数体内写 json.loads(...) 却没在顶部 import json —— cloudpickle 不会自动补全隐式依赖
  • 是否在不同 Python 解释器中混用?dill 序列化的对象不能在 PyPy 里加载,cloudpickle 在 CPython 3.8+ 间也建议同小版本
  • 函数是否依赖当前模块的全局状态?比如 CONFIG = {...} 被闭包捕获,但反序列化时该模块没被执行过,CONFIG 就是 NameError

快速验证法:在目标环境里手动 import 相关模块,然后用 cloudpickle.loads(cloudpickle.dumps(obj)) 看是否报错 —— 这比跑完整 pipeline 更快定位问题。

实际项目里,最常被忽略的是:序列化时看着没问题,但部署到容器或 worker 节点后,缺少某个看似无关的依赖包(比如 typing_extensions),导致反序列化卡在导入阶段,错误堆栈还藏得特别深。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

387

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

244

2023.10.07

json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

436

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

317

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

php中foreach用法
php中foreach用法

本专题整合了php中foreach用法的相关介绍,阅读专题下面的文章了解更多详细教程。

162

2025.12.04

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

211

2023.09.15

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

23

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号