如何用正则表达式辅助提取XML中的非结构化数据

幻夢星雲

发布时间：2026-01-21 11:21:34

277人浏览过

来源于php中文网

原创

正则提取XML数据易出错，因其无法处理嵌套等递归结构；仅适用于格式简单、无嵌套、无属性的特定场景，且应限于解析后的纯文本处理。

如何用正则表达式辅助提取xml中的非结构化数据

XML里用正则提取数据为什么总出错

直接对XML文本用正则匹配，多数时候不是“提不到”，而是“提歪了”。<tag>abc</tag><tag>def</tag> 这种简单情况看似能用 /<tag>(.*?)<\/tag>/g 拿到内容，但只要出现嵌套、属性、CDATA、注释或换行缩进，正则就大概率漏匹配、多截断、跨标签误捕获。XML是递归结构，而正则没有栈，无法正确处理嵌套层级。

哪些场景下正则可以安全辅助提取

前提是：XML已知格式简单、无嵌套、无动态命名空间、且你只关心特定标签内的纯文本片段。比如日志导出的固定格式XML、配置文件片段、或预处理后的扁平化XML。

提取所有 <error_message>.*?</error_message> 中的内容，且确认该标签永不嵌套、不带属性
从 <timestamp>2024-03-15T10:22:33Z</timestamp> 中快速抽ISO时间字符串，用 /<timestamp>([^<]+)<\/timestamp>/
清洗掉 XML 注释（）或处理指令（<\?.*?\?>），为后续 XML 解析器做预处理

必须避开的正则陷阱

这些写法在真实 XML 中极易失效：

用 .* 匹配标签内容 → 遇到换行就断，应改用 [\s\S]*? 或开启 dotall 模式（Python 的 re.DOTALL，JS 的 /s 标志）
写 <item>(.*?)</item> 却没考虑属性：<item id="123"> 会完全不匹配 → 应放宽为 <item\b[^>]*>(.*?)<\/item>
忽略 CDATA 块：<![CDATA[<tag>raw & unescaped</tag>]]> 里的内容不能被普通正则解析，需单独用 /<!\[CDATA\[(.*?)\]\]>/gs 提前剥离
把 <price>19.99</price> 和 <price currency="USD">19.99</price> 当成同一模式处理 → 属性顺序、存在性不确定时，正则很快失控

实操建议：正则只做“前置切片”或“后置清洗”

真正可靠的方案永远是先用标准 XML 解析器（如 Python 的 xml.etree.ElementTree、JS 的 DOMParser）加载文档，再对解析后的文本节点做正则处理。正则只负责“解析后”的环节。

Yodayo

一个专为动漫迷和vTuber打造的AI艺术创作平台、交流社区

下载

例如：从所有 <description> 文本中提取邮箱地址：

import xml.etree.ElementTree as ET
import re

tree = ET.parse("data.xml")
for desc in tree.findall(".//description"):
    text = desc.text or ""
    emails = re.findall(r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", text)
    if emails:
        print(emails)

注意：这里正则只跑在 desc.text 这个纯字符串上，不接触任何标签结构 —— 这才是它该待的位置。

嵌套深、命名空间多、格式不稳定的 XML，硬上正则只会让调试时间翻倍。宁可多写两行解析代码，也别指望一个正则通吃。

Python xml.dom.minidom写入文件避免写入多余空行的技巧

XML文件头部BOM头去除 Notepad++无BOM格式保存

XML文件转Csv Python脚本 Pandas一行代码实现XML转CSV

Python如何修复不规范的XML使其可以解析

XML文件如何转换为Word表格使用Python docx库填充数据

相关标签:

python js 正则表达式栈 ai 配置文件邮箱正则表达式命名空间 timestamp xml 字符串递归栈切片 JS

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何处理SOAP with Attachments (SwA)中的XML上传下一篇：XAML是什么 XAML和XML有什么关系

作者最新文章

U盘无法格式化怎么办强制格式化写保护U盘的终极解决方案【教程】

2026-03-12 10:32

C盘满了怎么清理电脑C盘空间清理的终极技巧【方法】

2026-03-12 10:52

PS怎么撤回上一步 Photoshop撤销快捷键是什么【操作指南】

2026-03-12 11:05

PS画笔怎么画任意角度直线？PS按住Shift画直线的用法

2026-03-12 11:09

C# 文件操作的资源泄漏检测 C#如何使用静态分析或运行时工具查找未关闭的文件句柄

2026-03-12 11:09

PS证件照怎么换底色？Photoshop红底转蓝底简单步骤【实用】

2026-03-12 11:21

C# 文件系统网络重定向器 C#如何与Windows的网络文件共享协议交互

2026-03-12 11:26

C#实现简单的文件数据库 C#如何用JSON或二进制文件模拟键值存储

2026-03-12 12:38

C# 文件操作的混沌工程 C#如何通过注入延迟或错误来测试文件IO的鲁棒性

2026-03-12 12:45

XForms和传统HTML表单有什么区别

2026-03-12 13:53

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板