如何处理XML中的CDATA内容映射

星降

发布时间：2026-03-16 13:41:03

590人浏览过

来源于php中文网

原创

XML解析器默认将CDATA视为普通文本，无法在解析后区分其来源；ElementTree不支持CDATA识别，lxml或Java DOM需特殊处理；CDATA不保证内容安全，误用可能导致XSS。

如何处理xml中的cdata内容映射

XML解析器默认会把CDATA当成普通文本处理

绝大多数XML解析器（如Python的xml.etree.ElementTree、Java的DocumentBuilder、JavaScript的DOMParser）在读取CDATA节时，不会做特殊标记或保留其边界，而是直接提取内部原始字符串。这意味着hello]]>会被当作字符串"<tag>hello</tag>"，和写成<tag>hello</tag>在DOM树中表现一致——你无法仅凭解析结果区分它原本是不是CDATA。

ElementTree中无法原生识别CDATA节

xml.etree.ElementTree根本不暴露CDATA信息：它没有回调、标志位或属性来指示某段文本来自CDATA。如果你依赖CDATA作为“内容不转义”的语义标记（比如存HTML片段），必须在序列化阶段手动包裹，或改用支持CDATA事件的解析器。

读取时：所有文本统一走elem.text或elem.tail，无区别
写入时：ElementTree默认不生成CDATA，需自行拼接字符串或换库
替代方案：用lxml.etree，它提供etree.CDATA()包装器

from lxml import etree
root = etree.Element("script")
root.text = etree.CDATA("<div id='app'>{{msg}}</div>")
print(etree.tostring(root, encoding="unicode"))
# 输出: <script><![CDATA[<div id='app'>{{msg}}</div>]]></script>

Java DOM中需用Node.CDATA_SECTION_NODE判断类型

标准org.w3c.dom API允许你在遍历时检查节点类型。只有显式调用getNodeValue()并确认getNodeType() == Node.CDATA_SECTION_NODE，才能知道当前文本来自CDATA节。

注意：getTextContent()会合并所有子文本，丢失CDATA来源信息
若用Transformer输出，需设置OutputKeys.CDATA_SECTION_ELEMENTS指定哪些元素内容应被包裹为CDATA
常见错误：用element.getTextContent()后直接映射，导致嵌套标签被误解析为结构而非字符串

JSON映射时CDATA内容通常要转义或加标记字段

XML转JSON没有标准规范，而CDATA的核心语义是“保持原样不解析”，这在JSON里没有对应概念。常见做法有三种：

OpenJobs AI

AI驱动的职位搜索推荐平台

下载

直接保留为字符串字段，但前端需约定该字段值为“已预转义HTML”（例如{"content": "<p>Hello</p>"}）
增加元字段标识，如{"content": "<p>Hello</p>", "_cdata": true}
对含HTML的字段统一用html后缀命名，如description_html，形成隐式约定

最容易被忽略的是：服务端若把CDATA内容当作纯文本返回给前端，而前端又用innerHTML渲染，就可能触发XSS——因为CDATA本身不提供安全保证，只是绕过XML解析器的转义，不代表内容可信。

相关标签:

json xss xml 字符串事件 dom innerHTML transformer

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XML文件如何从网页下载抓取网站上的XML数据流下一篇：暂无

作者最新文章

C# UTF-8字符串字面量方法 C#如何使用u8后缀创建UTF-8常量

2026-03-13 11:07

XML文件行数限制编辑器打开几百万行XML卡死的解决

2026-03-13 11:09

Android inset标签用法 XML调整Drawable的内边距

2026-03-13 11:18

C# NTFS交接点(Junction) C#如何创建目录的Junction Point

2026-03-13 11:36

PS蒙版怎么做出渐隐效果？PS图片边缘透明渐变教程

2026-03-13 11:40

XSD如何定义一个非负整数 nonNegativeInteger

2026-03-13 11:53

C# 访问者模式实现方法 C#如何对对象结构中的元素进行操作

2026-03-13 12:14

C#获取文件修改时间 C#如何读取文件的创建和修改日期

2026-03-13 12:17

学习通怎么扫码签到手机远程扫码签到步骤【技巧】

2026-03-13 12:40

CAD看图王怎么转DXF CAD看图王导出DXF格式图纸教程【干货】

2026-03-13 12:57

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23