正则可快速提取简单XML内容,如用(.*?)捕获标签文本,支持非贪婪匹配和属性跳过,但不适用于嵌套结构、注释或CDATA,需谨慎使用。

提取 XML 内容时,虽然推荐使用 DOM 或 SAX 等解析器,但在某些简单场景下,正则表达式可以快速实现目标。这种方法灵活,但需谨慎,因为正则无法完全处理 XML 的嵌套结构和复杂语法。
匹配基本标签内容
若要提取某个标签内的文本,可使用如下模式:
说明:
- .*? 是非贪婪匹配,确保只捕获第一个闭合标签前的内容
- 括号用于捕获组,方便后续提取
- 注意标签名区分大小写,且不支持属性自动过滤
示例:提取
处理带属性的标签
XML 标签常含属性,如
说明:
- [^>]* 表示任意非“>”字符,跳过属性部分
- 仍依赖非贪婪匹配防止跨标签捕获
- 若属性中包含“>”(极少见),可能出错
避免常见陷阱
正则处理 XML 的局限明显,需注意:
- 不支持嵌套同名标签:如
会匹配错误nested - 注释、CDATA、命名空间等特殊结构可能干扰匹配
- 换行和空格处理需开启 re.DOTALL 标志(使 . 匹配换行符)
- 性能在大文件中较差,且维护性低
基本上就这些。小任务可用正则快速提取,但涉及结构复杂或可靠性要求高的场景,还是交给专业 XML 解析器更稳妥。










