XML文件转换成TXT文本提取XML中纯文本内容的脚本

幻夢星雲

发布时间：2026-03-06 01:53:31

544人浏览过

来源于php中文网

原创

最稳方案是用 xml.etree.elementtree 递归提取 node.text 和 node.tail 并清理空白，手动解码实体与 cdata，大文件必用 iterparse() 配合 clear() 防内存溢出。

xml文件转换成txt文本提取xml中纯文本内容的脚本

用 Python 的 `xml.etree.ElementTree` 提取纯文本最稳

直接丢掉标签、保留换行和段落结构，xml.etree.ElementTree 是标准库里最轻量也最可控的选择。别碰 BeautifulSoup —— 它默认会补全 HTML 语义（比如把 <p></p> 自动闭合），XML 里没这回事，容易错乱；也别用正则硬扒，嵌套标签一多就崩。

关键不是“怎么读”，而是“怎么递归地跳过标签只留文本”。核心逻辑是：对每个节点，先取 node.text，再递归处理子节点，最后拼上 node.tail（这是很多人漏掉的——标签后的文本就存在这里）。

node.text：开始标签和第一个子标签之间的文本
node.tail：当前标签闭合后、下一个同级标签开始前的文本（常含换行缩进）
子节点的 text/tail 需显式递归，ElementTree 不自动合并

处理换行和空白字符要主动清理

原始 XML 里的换行、缩进、空格都会原样变成 text 或 tail，直接拼接会导致 TXT 里一堆空行或缩进错乱。不能依赖 strip() 全局处理——那会吃掉段落间必要的空行。

推荐策略：对每段 text 和 tail 单独做 .replace('\n', ' ').replace('\t', ' ').strip()，再按需加换行符。如果源 XML 用 <para></para> 或 <p></p><div class="aritcle_card flexRow"> <div class="artcardd flexRow"> <a class="aritcle_card_img" href="/xiazai/code/11106" title="逍遥内容管理系统(Carefree CMS)1.3.0"><img src="https://img.php.cn/upload/webcode/000/000/019/176498820779736.png" alt="逍遥内容管理系统(Carefree CMS)1.3.0" onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a> <div class="aritcle_card_info flexColumn"> <a href="/xiazai/code/11106" title="逍遥内容管理系统(Carefree CMS)1.3.0">逍遥内容管理系统(Carefree CMS)1.3.0</a> <p>系统简介逍遥内容管理系统（CarefreeCMS）是一款功能强大、易于使用的内容管理平台，采用前后端分离架构，支持静态页面生成，适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换，快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面，访问速度快，SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全</p> </div> <a href="/xiazai/code/11106" title="逍遥内容管理系统(Carefree CMS)1.3.0" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a> </div> </div> 包段落，就在进入这类标签时额外追加一个 \n。

别用 str(node) 或 etree.tostring() —— 返回的是带标签的字节流
node.tail 经常为空字符串或只含空白，检查 if node.tail and node.tail.strip() 再处理
如果 XML 声明了 xml:space="preserve"，得改用更谨慎的空白处理逻辑

遇到 CDATA 或实体编码要手动解码

里的内容不会被 ElementTree 自动解析为文本节点，而是整个当做一个 node.text 字符串；而、< 这类实体也不会被自动转义。结果就是 TXT 里出现裸的 或一堆 <code>。

解决方法分两步：先用 html.unescape() 解实体（Python 3.4+），再对 node.text 做正则提取 CDATA 内容：re.search(r'', text, re.DOTALL)。注意 re.DOTALL 必须加，否则跨行 CDATA 拿不到。

html.unescape() 能处理 "、'、数字字符引用等，但不处理 CDATA
CDATA 提取后要替换原 text，不是追加——否则重复出现
某些 XML 用 <script><![CDATA[...]]></script>，这种嵌套结构正则可能失效，得改用 SAX 或 lxml

大文件要用 `iterparse()` 防内存炸掉

读几百 KB 的 XML 用 ET.parse() 没问题；但一旦超 10MB，DOM 全加载进内存，Python 进程可能直接被系统 kill。这时候必须切到流式解析：ET.iterparse() 边读边清空已处理节点。

重点不是“怎么解析”，而是“什么时候调 root.clear()”。必须在处理完一个完整业务单元（比如一个 <article></article>）后立刻清空其子节点，否则内存只增不减。别等循环结束——那时候早爆了。

iterparse() 返回 (event, node)，只在 event == 'end' 且 node.tag == 'article' 时才提取文本并调 node.clear()
别忘了在循环外手动调一次 root.clear()，清掉根节点残留引用
iterparse() 不自动处理命名空间，如果 XML 有 xmlns，得提前传 namespaces 参数或用通配符 *}

该处理的点都在这儿了：递归抓 text/tail、空白清理要分层、CDATA 和实体得手动拆、大文件必须流式清内存。最容易卡住的是 tail 被忽略，和 iterparse() 忘记 clear()。

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

840

2023.08.22

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1942

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2117

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1156

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

718

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

219

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1561

2023.10.24

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板