如何处理XML中的自闭合标签映射

畫卷琴夢

发布时间：2026-01-27 09:03:09

639人浏览过

来源于php中文网

原创

XML自闭合标签在DOM解析中被统一映射为无子节点的Element节点，与空开始-结束标签等价；ElementTree写回时默认输出<tag></tag>，3.9+需设short_empty_elements=True才输出<tag/>。

如何处理xml中的自闭合标签映射

XML自闭合标签在DOM解析中会变成什么

XML中的自闭合标签（如 <item/>）在标准DOM解析器（如浏览器原生DOMParser或Python的xml.etree.ElementTree）中，**不会保留“自闭合”语法形态**，而是统一映射为带有空内容的开始-结束节点。这意味着<tag/>和<tag></tag>在DOM树中完全等价，都表现为一个Element节点，其childNodes为空、textContent为空字符串、text属性为None（取决于库）。

为什么用`ElementTree`写回XML时自闭合标签消失了

Python的xml.etree.ElementTree默认不区分<tag/>和<tag></tag>，写入时一律输出后者（除非显式控制）。这是设计使然：它只关心信息等价性，不保留原始序列化偏好。

使用ET.tostring(elem, encoding='unicode')默认输出<tag></tag>
若需强制自闭合，必须在写入前设置elem.tail = None且确保无子节点，再配合method='xml'和short_empty_elements=True（仅Python 3.9+支持）
旧版本（lxml——它通过etree.tostring(..., method='xml', xml_declaration=False, encoding='unicode', pretty_print=False)并设置elem.set('_self_closing_', '1')无效；正确方式是直接用lxml.etree并启用short_empty_elements=True（默认开启）

如何用`lxml`精确控制自闭合行为

lxml是少数能可靠维持/生成自闭合标签的主流XML库，关键在于初始化解析器时启用remove_blank_text=False（保留原始空白），并在序列化时明确控制short_empty_elements。

from lxml import etree
<h1>解析时尽量保留原始结构</h1><p>parser = etree.XMLParser(remove_blank_text=False, strip_cdata=False)
root = etree.fromstring(b'<root><item id="1"/><item></item></root>', parser)</p><h1>写出时强制短格式（即自闭合）</h1><p>result = etree.tostring(root, encoding='unicode', short_empty_elements=True)</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/1955" title="Giiso写作机器人"><img
                                                                                src="https://img.php.cn/upload/ai_manual/001/246/273/68b6d1b886fb3506.png" alt="Giiso写作机器人"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/1955" title="Giiso写作机器人">Giiso写作机器人</a>
                                                                        <p>Giiso写作机器人，让写作更简单</p>
                                                                </div>
                                                                <a href="/ai/1955" title="Giiso写作机器人" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div><h1>输出：<root><item id="1"/><item/></root></h1><h1>若想禁用自闭合（全部展开），设为 False</h1><p>result_expanded = etree.tostring(root, encoding='unicode', short_empty_elements=False)</p><h1>输出：<root><item id="1"></item><item></item></root>

JSON映射时自闭合标签容易被误判为null或空对象

将XML转为JSON（如用xmltodict）时，<tag/>常被映射为{"tag": null}或{"tag": {}}，而<tag>text</tag>是{"tag": "text"}。这种歧义会导致下游逻辑出错，尤其当字段语义依赖“是否存在值”而非“是否声明”。

xmltodict默认把空元素转成None，可通过force_list=()和process_namespaces=False微调，但无法区分<tag/>和<tag></tag>
更稳妥的做法是预处理：遍历所有空Element，添加一个特殊属性（如self-closing="true"），再转JSON；或在JSON Schema中约定空元素统一用{"tag": {"$empty": true}}表示
如果只是校验，可用XPath //*[not(node()) and not(@*)]快速定位纯自闭合标签（无属性、无文本、无子元素）

实际处理时，不要假设XML序列化形式会被下游保留；自闭合标签的本质是语义空值，重点应放在数据含义一致性上，而不是字符层面的“看起来像不像”。

Python xml.sax.parse 解析XML文件

XML文件如何导入MongoDB 将XML文档转换为BSON存储

Python lxml builder E.function 自定义XML构建函数

Python如何将多个XML文件合并为一个树

Python BeautifulSoup修改XML标签替换Tag内容并保存文件

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1172

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1229

2024.03.22