
本文介绍如何在 Pandas DataFrame 中对存储字典的 Series 列进行条件过滤,重点讲解 str.get() 方法与列表推导式的实用技巧,并对比性能与可读性差异。
本文介绍如何在 pandas dataframe 中对存储字典的 series 列进行条件过滤,重点讲解 `str.get()` 方法与列表推导式的实用技巧,并对比性能与可读性差异。
在实际数据分析中,常会遇到结构化程度不一的数据——例如某列(如 Location)并非标量类型,而是包含字典的混合对象。这类“嵌套字典列”无法直接通过 df['col']['key'] 进行向量化索引(因 df['Location']['State'] 会尝试对整个 Series 取键 'State',引发 KeyError 或 TypeError)。正确做法是将字典访问操作向量化地作用于每个元素。
✅ 推荐方案:Series.str.get() + 布尔索引
str.get() 是 Pandas 为类字符串/类映射对象(如 dict、None 安全)提供的向量化访问方法,专为处理此类嵌套结构设计:
import pandas as pd
df = pd.DataFrame({
'Name': ['Alice', 'Bob', 'Aritra'],
'Age': [25, 30, 35],
'Location': [
{'City': 'Seattle', 'State': 'WA'},
{'City': 'New York', 'State': 'NY'},
{'City': 'Albany', 'State': 'NY'}
]
})
# 筛选 State == 'NY' 的所有行
filtered = df[df['Location'].str.get('State') == 'NY']
print(filtered)输出:
Name Age Location
1 Bob 30 {'City': 'New York', 'State': 'NY'}
2 Aritra 35 {'City': 'Albany', 'State': 'NY'}? 优势说明:
- str.get('State') 自动对 Location 列每个字典调用 .get('State'),返回 Series;
- 若某字典缺失 'State' 键,.get() 默认返回 None(安全),避免 KeyError;
- 支持链式调用(如 str.get('address').str.get('zip') 处理多层嵌套);
- 完全向量化,性能优于 Python 循环。
⚙️ 替代方案:列表推导式(适合复杂逻辑或调试)
当需要更灵活的判断逻辑(如多条件、默认值处理、异常捕获)时,可使用列表推导式构建布尔掩码:
mask = [d.get('State') == 'NY' for d in df['Location']]
filtered = df[mask]该写法语义清晰,易于调试,但非向量化,在大数据集上性能显著低于 str.get()。仅建议用于小规模数据或逻辑高度定制化场景。
⚠️ 注意事项与最佳实践
- 避免 apply(lambda x: x['State']):虽能工作,但性能差且不处理缺失键(遇 KeyError 会中断);
- str.get() 比 str[] 更安全:df['Location'].str['State'] 在部分版本中可能失效或抛异常;
- 空值/None 处理:str.get('State', 'UNKNOWN') 可指定默认值,增强鲁棒性;
-
类型检查(进阶):若列中混有非字典值(如 None, str, list),建议先清洗:
df['Location'] = df['Location'].apply(lambda x: x if isinstance(x, dict) else {})
掌握 str.get() 是处理 Pandas 中嵌套结构数据的关键技能——它让字典列像普通列一样参与高效布尔索引,兼顾简洁性、安全性与性能。










