0

0

Python Pandas怎么读取XML文件 pandas.read_xml

月夜之吻

月夜之吻

发布时间:2025-12-21 09:03:07

|

923人浏览过

|

来源于php中文网

原创

pandas官方不提供read_xml()函数,需用xml.etree.ElementTree、第三方pandas-read-xml或lxml解析XML后转DataFrame;不推荐用BeautifulSoup处理纯XML。

python pandas怎么读取xml文件 pandas.read_xml

注意:pandas 本身不提供 pandas.read_xml() 函数。

截至 pandas 2.2.x(2024 年最新稳定版),pandas 官方并未内置 XML 解析功能pandas.read_xml() 并不存在。你在网上看到的 read_xml 要么是误传,要么是混淆了其他库(比如第三方包 pandas-read-xml),或是误将 read_html()read_json() 的用法套用到了 XML 上。

✅ 正确做法是:用标准 XML 解析器(如 xml.etree.ElementTreelxml)解析 XML,再手动或借助辅助工具转为 DataFrame


1. 使用标准库 xml.etree.ElementTree(推荐入门)

适合结构清晰、层级较扁平的 XML(如配置文件、简单数据列表)。

示例 XML(data.xml):

立即学习Python免费学习笔记(深入)”;

Nanonets
Nanonets

基于AI的自学习OCR文档处理,自动捕获文档数据

下载
<root>
  <item><name>Apple</name><price>1.2</price></item>
  <item><name>Banana</name><price>0.8</price></item>
</root>

读取并转为 DataFrame:

```python import pandas as pd import xml.etree.ElementTree as ET

tree = ET.parse("data.xml") root = tree.getroot()

data = [] for item in root.findall("item"): row = { "name": item.find("name").text, "price": float(item.find("price").text) } data.append(row)

df = pd.DataFrame(data) print(df)

<p>输出:</p>
<pre>    name  price
0  Apple    1.2
1 Banana    0.8</pre>

---

<H3>2. 使用第三方库 pandas-read-xml(最接近“read_xml”体验)</H3>
这个社区维护的包提供了类似 `pd.read_xml()` 的接口,支持 XPath、属性提取、嵌套展开等。

<p>安装:</p>
```bash
pip install pandas-read-xml

基本用法:

```python import pandas_read_xml as pdx

df = pdx.read_xml("data.xml", ["item"]) # 指定重复节点路径 print(df)

<p>支持更复杂场景,例如:</p>
<ul>
  <li>从属性读取:<code>pdx.read_xml("file.xml", ["item"], attr_prefix="@")</code></li>
  <li>处理多层嵌套:<code>pdx.read_xml("file.xml", ["root", "category", "product"])</code></li>
  <li>自动类型推断(含日期、数字)</li>
</ul>

⚠️ 注意:它不是 pandas 官方组件,需额外安装和维护;生产环境建议评估其更新活跃度与兼容性(当前 GitHub 主页为 <code>https://github.com/trevorstephens/pandas-read-xml</code>)。

---

<H3>3. 使用 lxml + xpath(高性能、灵活,适合复杂/大型 XML)</H3>
`lxml` 比标准库更快,XPath 表达式强大,适合 Web 抓取或企业级 XML(如 SOAP、Office Open XML)。

<p>安装:</p>
```bash
pip install lxml

示例(同上 XML):

```python from lxml import etree import pandas as pd

tree = etree.parse("data.xml") items = tree.xpath("//item")

data = [ { "name": i.xpath("name/text()")[0], "price": float(i.xpath("price/text()")[0]) } for i in items ]

df = pd.DataFrame(data)


<p>优势:</p>
<ul>
  <li>支持命名空间、条件筛选(如 <code>//item[price > 1.0]</code>)、文本/属性混合提取</li>
  <li>可处理 GB 级 XML(配合迭代解析 <code>iterparse</code>)</li>
</ul>

---

<H3>4. 不推荐的方式:用 BeautifulSoup 解析 XML</H3>
虽然 `bs4` 支持 XML 解析器(需装 `lxml` 或 `xml`),但它设计初衷是 HTML 容错解析,对规范 XML 效率低、语义弱,且无原生 DataFrame 转换逻辑,属于“能跑但不优雅”。

<p>简言之:除非你已在用 bs4 处理混合 HTML/XML,否则不用专为 XML 引入它。</p>

不复杂但容易忽略

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

80

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

19

2026.02.03

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

595

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

108

2025.10.23

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1948

2024.04.01

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号