Python如何将XML转换为Pandas DataFrame

星降

发布时间：2026-02-11 11:34:02

951人浏览过

来源于php中文网

原创

Python中XML转Pandas DataFrame需先解析再构造：用ElementTree处理扁平XML，lxml+XPath应对嵌套不规则结构，或用pandas-read-xml快速上手；注意清理文本、转换类型、处理命名空间及大文件流式解析。

python如何将xml转换为pandas dataframe

Python中将XML转换为Pandas DataFrame，核心思路是先解析XML结构（提取标签、属性、文本内容），再组织成字典列表或类似二维结构，最后用pd.DataFrame()构造。没有内置函数直接转换，但借助xml.etree.ElementTree（标准库）或lxml（功能更强）即可高效完成。

用ElementTree解析简单扁平XML

适用于层级浅、结构规则的XML（如每条记录为同级，字段为子标签或属性）。

步骤：加载XML → 找到所有记录节点 → 遍历每个节点，提取子元素文本或属性 → 存入字典列表 → 转DataFrame。

示例代码：

立即学习“Python免费学习笔记（深入）”；

AI图像编辑器

使用文本提示编辑、变换和增强照片

下载

import xml.etree.ElementTree as ET
import pandas as pd
xml_data = """
Alice25
Bob30
"""
root = ET.fromstring(xml_data)
records = []
for item in root.findall('item'):
record = {
'id': item.get('id'),  # 提取属性
'name': item.find('name').text,
'age': int(item.find('age').text)
}
records.append(record)
df = pd.DataFrame(records)

处理嵌套或不规则XML（推荐lxml + XPath）

当XML有深层嵌套、可选字段、重复子元素或命名空间时，lxml更灵活。它支持XPath表达式，可精准定位节点，并能安全处理缺失值。

安装：pip install lxml
用etree.parse()或etree.fromstring()加载
用.xpath()按路径提取，配合text、get()等方法取值
对可能不存在的字段，用next(iter(xpath_result), None)避免报错

用pandas-read-xml（第三方库，适合快速上手）

如果XML结构较标准，可使用pandas-read-xml库，语法接近pd.read_csv()，自动推断字段并处理常见情况。

安装：pip install pandas-read-xml
基本用法：df = read_xml('data.xml', xpath='.//item')
支持参数：attrs_prefix（加前缀区分属性和元素）、iterparse（大文件流式解析）
注意：对复杂嵌套仍需手动预处理，不是万能方案

注意事项与避坑提示

XML转DataFrame容易出错的地方集中在结构理解与数据类型上。

确认根节点和记录节点路径，别把误当数据行
文本内容可能含空格或换行，建议用.strip()清理
数字/布尔字段需显式转换（int()、float()、ast.literal_eval()）
含命名空间的XML需在findall()中传入namespaces字典
超大XML避免一次性加载进内存，改用iterparse()边解析边构建记录

XML上传的数字签名如何生成和验证

Python如何从一个巨大的XML文件中随机抽样节点

Python如何从ZIP压缩包中直接读取XML文件

如何验证一个XML文件是否符合XSD规范，有哪些在线工具？

如何用Python的Requests库POST XML数据

相关标签:

python pandas pip 数据类型 Float 命名空间 xml int

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Android assets读取XML 无法获取AssetManager文件的解决下一篇：暂无

作者最新文章

C# 验证PDF签名 C#如何检查PDF文件中的数字签名是否有效

2026-02-11 09:06

春节返程票什么时候开始买春节返程票好买吗

2026-02-11 09:28

高速免费时间2026 高速免费时间2026时间表

2026-02-11 09:35

2026年终奖个税怎么计税更划算年终奖计税方式选择方法【攻略】

2026-02-11 09:38

高速费免费时段高速费免费时段2026年

2026-02-11 09:42

2026个人所得税怎么申报 2026个税年度汇算清缴流程【教程】

2026-02-11 09:43

C# NTFS备用数据流 C#如何读写文件的Alternate Data Streams (ADS)

2026-02-11 09:47

三角洲行动黑鹰坠落剧情怎么过全关卡通关攻略【流程】

2026-02-11 09:47

1公吨等于多少磅 5吨是多少公斤

2026-02-11 09:57

省综合素质评价信息管理平台入口综评系统官方登录网站

2026-02-11 10:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

346

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

422

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

783

2024.12.23