
Pydantic 仅对不可哈希(unhashable)类型的默认值执行实例级深拷贝,而用户自定义类默认是可哈希的,因此 Spam() 这类对象会被共享;正确做法是改用 Field(default_factory=...) 确保每次实例化都生成独立副本。
pydantic 仅对**不可哈希(unhashable)类型**的默认值执行实例级深拷贝,而用户自定义类默认是可哈希的,因此 `spam()` 这类对象会被共享;正确做法是改用 `field(default_factory=...)` 确保每次实例化都生成独立副本。
在 Pydantic 模型中,为字段指定默认值时,若该值是可变对象(如 list, dict, 或自定义类实例),开发者常期望每次创建新模型实例时,该字段都获得一个独立的副本,避免状态意外共享。Pydantic 确实为此提供了保障——但有一个关键前提:它仅对不可哈希(unhashable)对象自动触发深拷贝。
Python 规定:所有用户自定义类的实例默认是可哈希的(只要未显式定义 __hash__ = None 或实现冲突的 __eq__/__hash__),而 Pydantic 的深拷贝机制正是依据 hash() 是否抛出 TypeError 来判断是否需要深拷贝。这意味着:
- ✅ list = []、dict = {} 等内置可变类型不可哈希 → Pydantic 自动深拷贝 → 每个实例拥有独立列表;
- ❌ Spam() 实例默认可哈希 → Pydantic 跳过深拷贝 → 所有实例共享同一对象引用。
这解释了原代码中 obj1.item.names.append("bye") 同时影响 obj2.item.names 的现象,以及 id(obj1.item) == id(obj2.item) 返回 True 的原因——它们指向同一个 Spam 实例。
正确解法:使用 default_factory
应弃用直接赋值的默认参数(item: Spam = Spam()),改用 Field(default_factory=...),由 Pydantic 在每次实例化时惰性调用工厂函数,确保对象严格隔离:
from pydantic import BaseModel, ConfigDict, Field
class Spam:
def __init__(self) -> None:
self.names = ["hi"]
class Person(BaseModel):
model_config = ConfigDict(arbitrary_types_allowed=True)
item: Spam = Field(default_factory=Spam) # ✅ 每次新建 Person 都调用 Spam()
lst: list = [] # ✅ list 默认仍被深拷贝(因不可哈希)运行效果验证:
obj1 = Person()
obj2 = Person()
obj1.lst.append(10)
obj1.item.names.append("bye")
print(obj1.lst) # [10]
print(obj1.item.names) # ['hi', 'bye']
print(obj2.lst) # []
print(obj2.item.names) # ['hi'] ← 独立副本!
print(id(obj1.item) == id(obj2.item)) # False注意事项与最佳实践
- ⚠️ 不要依赖 __deepcopy__:即使你实现了 __deepcopy__,只要对象可哈希,Pydantic 就不会调用它。该方法仅在对象被判定为需深拷贝时才生效。
- ⚠️ 避免可变默认参数陷阱:item: Spam = Spam() 是典型的“危险默认值”写法,在 Pydantic 和纯 Python 函数中均应规避。
- ✅ 优先使用 default_factory:对任意可变对象(包括自定义类、嵌套结构、带初始化逻辑的对象),Field(default_factory=...) 是最清晰、最可靠的方式。
- ? 若需深度定制拷贝行为:可在 Spam 中保留 __deepcopy__,但必须配合 default_factory 使用,此时它会在 Spam 被其他支持深拷贝的上下文(如手动 deepcopy())调用,而非由 Pydantic 主动触发。
综上,Pydantic 的深拷贝策略是务实且符合 Python 类型哲学的:它不强行干预可哈希对象的语义,而是将控制权交还给开发者——通过 default_factory 显式声明“此处需新实例”,从而兼顾性能、安全与可预测性。










