Pandas怎么解析JSON_read_json()与json_normalize()展平嵌套结构

P粉602998670

发布时间：2026-03-18 05:37:17

701人浏览过

来源于php中文网

原创

read_json() 不展平嵌套结构，仅做基础类型转换；json_normalize() 才专用于展平，需配合使用并注意字段提取、点号列名处理及性能优化。

pandas怎么解析json_read_json()与json_normalize()展平嵌套结构

read_json() 读出来还是嵌套字典，根本没展平

这是因为 read_json() 默认只做 JSON 字符串到 Python 对象的转换，不处理嵌套结构——它把 JSON 数组转成 list，对象转成 dict，原样塞进 DataFrame 的单元格里。你看到的“嵌套”，其实是某个列里存着 {'user': {'id': 123, 'name': 'Alice'}, 'score': 95} 这种 dict，不是 DataFrame 的多级列。

常见错误现象：df['data'].apply(type) 返回 <class 'dict'>；用 df['data']['user'] 报 KeyError；想直接取 df['data.user.id'] 不生效。

如果原始 JSON 是数组（如 [{"a": 1, "b": {"c": 2}}]），read_json() 能生成 DataFrame，但 b 列仍是 dict 类型
如果原始 JSON 是单个对象（如 {"results": [...]}），read_json() 会生成 1 行 DataFrame，results 列存整个 list —— 这时候连行都没展开
别指望 orient 参数（如 'records' 或 'columns'）能自动展平嵌套字段；它只管顶层结构怎么映射成行/列

json_normalize() 才是专治嵌套的工具

json_normalize() 的设计目标就是把嵌套 dict/list 拉成扁平列，比如把 {'user': {'id': 123, 'profile': {'city': 'Beijing'}}} 变成三列：user.id、user.profile.city、甚至可选的 user 原始 dict（用 max_level=0）。

使用场景：API 返回的 JSON 响应体里有 data 字段包着数组，或每条记录里有 metadata、address 等子对象。

最简用法：json_normalize(data)，其中 data 是 list of dict 或单个 dict
从深层字段提取数组：用 record_path 指定路径，比如 json_normalize(data, record_path=['results', 'items'])
保留父级字段：用 meta 传入要提升上来的字段名列表，如 meta=['id', 'timestamp', ['user', 'name']]
注意 errors='ignore' 和 errors='raise' 的区别：字段缺失时前者跳过，后者报错

read_json() + json_normalize() 组合才是实战常态

真实数据往往不是纯数组 JSON 文件，而是带包装层的响应体（如 {"status": "ok", "data": [{"id": 1}, {"id": 2}]}）。这时候不能只靠 read_json()，也不能直接把整个文件内容喂给 json_normalize() —— 因为 json_normalize() 接收的是 Python 对象，不是文件路径。

提客AI提词器

「直播、录课」智能AI提词，搭配抖音直播伴侣、腾讯会议、钉钉、飞书、录课等软件等任意软件。

下载

典型流程是：先用 read_json() 加载，再对结果中具体的嵌套字段调用 json_normalize()。

读取后取字段：raw = pd.read_json('api.json'); df = json_normalize(raw['data'])
如果 raw['data'] 是字符串而非 dict/list，先 json.loads() 解析（常见于字段被双重序列化）
避免重复解析：不要写 json_normalize(pd.read_json('x.json').to_dict('records'))，这会把已解析的对象又转回 dict 再展平，多余且易错
性能影响：json_normalize() 在内部做了递归遍历，嵌套层级深、数据量大时明显变慢；可先用 sample(1000) 测试结构再全量处理

展平后字段名含点号，后续操作容易出问题

json_normalize() 默认生成的列名是 a.b.c 这种带点的，Pandas 允许，但很多下游操作不友好：比如 df.a.b.c 会报错（属性链不支持点号），df['a.b.c'] 又太啰嗦，SQL 导出、数据库写入、某些可视化工具也会拒绝点号列名。

这不是 bug，是设计使然——它靠点号表达嵌套路径。但生产环境通常得改掉。

快速清理：用 df.columns = df.columns.str.replace('.', '_')（简单粗暴）
更稳妥：在 json_normalize() 中加 sep='_' 参数，从源头控制分隔符
注意 meta 字段也会被加前缀，比如 meta=[['user', 'info']] 会生成 user_info_id，不是 user.info.id
如果原始 JSON 里就有字段名含点（极少见），sep 改了也没用，得预处理 key —— 这种情况基本说明数据源不规范，优先推动上游修复

嵌套 JSON 展平从来不是“一键解决”的事，关键在判断哪一层该展开、哪些字段要提升、点号列名要不要动——这些决定比函数调用本身更重要。

相关标签:

sql json pandas timestamp 字符串递归 raise class 类型转换对象数据库性能优化 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python PyCharm怎么汉化_PyCharm中文界面插件安装教程下一篇：暂无

作者最新文章

宝塔面板安装后如何设置面板的访问白名单规则？

2026-03-17 18:54

Win11怎么自定义开始菜单_固定应用与文件夹快捷方式

2026-03-17 18:55

如何在Golang中利用Heap实现优先队列 Go语言container/heap接口实战

2026-03-17 18:56

如何在Golang中实现Web服务的健康检查 Go语言K8s就绪与存活探针

2026-03-17 18:56

如何在Golang中避免不必要的指针使用 Go语言值传递优化技巧

2026-03-17 18:57

如何在宝塔面板中管理多PHP版本的环境变量？

2026-03-17 18:59

如何在Golang中实现自动化的CI/CD流水线 Go语言结合GitHub Actions实战

2026-03-17 18:59

如何在Golang中实现数据库事务的回滚 Go语言Tx.Rollback错误处理

2026-03-17 19:00

如何在Golang中构建静态链接的可执行文件 Go语言CGO_ENABLED禁用技巧

2026-03-17 19:00

如何在Golang中正确使用Goto跳转语句 Go语言流程控制最佳实践

2026-03-17 19:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12