如何映射XML文件中的注释或处理指令？

幻夢星雲

发布时间：2026-01-19 11:11:02

525人浏览过

来源于php中文网

原创

主流xml解析器默认忽略注释和处理指令，需显式启用保留模式：elementtree需自定义treebuilder，lxml支持parse_comments=true，dom需设置domconfig参数。

如何映射xml文件中的注释或处理指令？

XML解析器默认忽略注释和处理指令

绝大多数主流XML解析器（如Python的xml.etree.ElementTree、Java的DOMParser、JavaScript的DOMParser）在构建文档树时，会直接跳过和<?pi target?>节点。这不是bug，而是W3C规范允许的“非信息项”处理策略——除非显式启用保留模式，否则它们不会出现在childNodes或iter()结果中。

ElementTree需用`XMLParser(target=)`捕获注释

Python标准库的ElementTree不提供开箱即用的注释访问接口，但可通过自定义TreeBuilder配合XMLParser实现。关键在于重写comment()和pi()方法：

from xml.etree import ElementTree as ET
from xml.etree.ElementTree import TreeBuilder
<p>class CommentPreservingBuilder(TreeBuilder):
def comment(self, data):
self.start(ET.Comment, {})
self.data(data)
self.end(ET.Comment)</p><pre class='brush:php;toolbar:false;'>def pi(self, target, data):
    self.start(ET.PI, {'target': target, 'data': data})
    self.end(ET.PI)

parser = ET.XMLParser(target=CommentPreservingBuilder()) root = ET.parse("doc.xml", parser).getroot()

注释节点现在是真实元素，可用findall查找

comments = root.findall(".//{*}comment") # 注意命名空间通配

Texta

AI博客和文章一键生成

下载

ET.Comment和ET.PI是特殊节点类型，不能用字符串标签名直接匹配
必须用.//{*}comment这种带通配命名空间的XPath，否则findall("comment")找不到
注释内容通过node.text获取，而非node.attrib

lxml支持`parse_comments=True`一键开启

如果你能引入第三方库，lxml是最省心的选择。它原生支持注释和PI节点保留，并提供清晰的API：

from lxml import etree
<p>parser = etree.XMLParser(remove_comments=False, recover=True)
tree = etree.parse("doc.xml", parser)
root = tree.getroot()</p><h1>直接遍历所有节点，包括注释</h1><p>for node in root.iter():
if isinstance(node, etree._Comment):
print("Comment:", node.text.strip())
elif isinstance(node, etree._ProcessingInstruction):
print("PI:", node.target, node.text)</p>

remove_comments=False是必须参数，缺省为True
etree._Comment和etree._ProcessingInstruction是具体类型，不能用字符串判断
注意recover=True可容忍部分格式错误，避免解析中断

DOM解析中需手动设置`domConfig`特性

浏览器环境或Java DOM中，注释节点默认存在但可能被过滤。必须显式启用"comments"和"CDATA-sections"特性：

// JavaScript示例（浏览器环境）
const parser = new DOMParser();
const doc = parser.parseFromString(xmlString, "application/xml");
// 启用注释保留（部分浏览器需此步）
doc.domConfig?.setParameter("comments", true);
doc.domConfig?.setParameter("CDATA-sections", true);
<p>// 现在可以安全遍历
Array.from(doc.childNodes).forEach(node => {
if (node.nodeType === Node.COMMENT_NODE) {
console.log("Comment:", node.textContent);
}
});</p>

现代Chrome/Firefox通常默认保留注释，但Safari和旧版IE可能需要domConfig
Node.COMMENT_NODE值为8，Node.PROCESSING_INSTRUCTION_NODE为7
服务端DOM（如JAXP）必须调用setFeature("http://apache.org/xml/features/dom/include-comments", true)

注释和处理指令的映射不是“有没有”的问题，而是“要不要主动打开开关”的问题。不同解析器的默认行为差异极大，最容易踩的坑是：以为iter()或childNodes天然包含它们，结果调试半天发现根本没进循环。

如何在浏览器端使用JavaScript和XSLT进行转换

XML文件如何通过XSLT转HTML 浏览器端即时渲染XML

XML文件能包含JavaScript吗 SVG XML中嵌入脚本的安全风险

JavaScript将XML转为字符串 JS XMLSerializer对象使用详解

使用JavaScript和DOM解析器进行XML映射

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：REST API返回XML还是JSON更好下一篇：什么是XML的持久性，它在数据归档和长期保存中的优势是什么？

作者最新文章

C# 文件系统的IO负载均衡 C#在多磁盘环境下如何将IO请求均匀分布

2026-03-06 10:21

java抽象方法_与普通方法、接口方法的核心特征对比

2026-03-06 10:39

PPT多张图片怎么批量添加文字说明 PPT图片加标题标注方法【实用】

2026-03-06 10:46

禁用Win11新版右键菜单命令分享（CMD/PowerShell）

2026-03-06 11:29

Excel怎么对比两个表格数据差异 Excel两表找不同方法【指南】

2026-03-06 11:30

PDF怎么转换成Word不乱码 PDF无损转Word方法【指南】

2026-03-06 11:33

电子税务局如何办理退税电子税务局多缴税款退抵税申请流程【实务】

2026-03-06 12:04

浏览器怎么查看网站排名浏览器SEO工具插件安装方法

2026-03-06 14:05

谷歌浏览器自动填充地址怎么删除 Chrome清理个人信息方法【步骤】

2026-03-06 15:46

手机浏览器怎么设置全屏浏览隐藏地址栏操作方法【方法】

2026-03-06 16:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1041

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

827

2023.11.06

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1944

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2118

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1160

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

718

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

219

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1561

2023.10.24

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板