
Python 中 pickle 和 json</strong> 都能实现对象序列化,但适用场景、能力边界和安全特性差异极大,不能简单互换。</p>
<H3>功能覆盖:pickle 支持任意 Python 对象,json 只支持基础数据类型</H3>
<p><code>pickle
是 Python 原生序列化协议,能处理函数、类实例、嵌套自定义对象、带循环引用的结构等。例如:
- 序列化一个包含方法、属性和内部状态的类实例(如
datetime.datetime.now()) - 保存带有闭包的 lambda 函数(虽不推荐,但技术上可行)
- 正确处理对象间相互引用(A 持有 B,B 也持有 A)
json 仅支持 dict、list、str、int、float、bool、None 这六种类型。遇到 datetime、set、自定义类等会直接报错 TypeError,需手动转换(如用 default 参数预处理)。
跨语言与兼容性:json 天然通用,pickle 完全绑定 Python
json 是标准文本格式,所有主流语言都有成熟解析器,适合 API 通信、配置文件、前端交互等场景。生成的字符串可读、可调试、可版本控制。
立即学习“Python免费学习笔记(深入)”;
pickle 是二进制(或 ASCII 兼容文本)格式,且协议版本随 Python 升级变化(如 protocol 4 在 3.4+ 引入,3.7+ 默认用 protocol 4)。用高版本 pickle 序列化的数据,在低版本 Python 中可能无法反序列化;更严重的是,其他语言基本无法解析 pickle 流。
安全性:pickle 反序列化 = 执行任意代码,json 相对安全
pickle.load() 或 pickle.loads() 在反序列化时会动态调用类构造器、__setstate__ 等,攻击者可构造恶意 payload 实现远程代码执行(RCE)。因此绝不能反序列化不可信来源的 pickle 数据。
json.loads() 本质是解析纯数据结构,不触发用户定义逻辑,不存在代码执行风险。即使输入恶意 JSON(如超深嵌套、超大数字),最多引发内存溢出或解析失败,不会导致任意命令执行。
性能与体积:pickle 通常更快更紧凑,json 更慢但更透明
在纯 Python 对象场景下,pickle(尤其用 protocol=4 或 5)序列化/反序列化速度一般比 json 快 2–5 倍,生成的字节流也更小(尤其含大量重复结构或二进制数据时)。
json 因需类型转换(如 datetime → str)、文本编码/解码、严格语法检查,开销更大。但它生成的是人类可读文本,便于日志记录、人工校验、Git diff 对比。
选型原则很明确:需要跨语言或处理外部输入,选 json;只在可信 Python 环境内做临时存储或进程间传递,且对象复杂,再考虑 pickle。不复杂但容易忽略。










