xml.etree.elementtree解析带命名空间xml需显式传入命名空间字典,如ns={"ns":"http://example.com/ns"};匹配任意命名空间可用{*}item(python 3.9+);嵌套转yaml时应先判断子节点重复性并统一转为list或dict以保结构稳定。

xml.etree.ElementTree 解析失败:命名空间搞不定
XML 文件带命名空间时,find 和 findall 默认找不到元素,不是代码写错了,是没处理命名空间。比如 <config xmlns="http://example.com/ns"></config> 这种,直接用 root.find("item") 会返回 None。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 用字典声明命名空间,例如
ns = {"ns": "http://example.com/ns"},再传给find("ns:item", ns) - 如果懒得记 URI,可以用通配符
{*}item匹配任意命名空间下的item元素(Python 3.9+ 支持) - 老版本 Python 或需兼容性,推荐先用
root.tag.split("}")[-1]剥离命名空间,再递归清理所有节点的tag和attrib键名
嵌套结构转 YAML 后丢失层级或变成列表乱序
XML 没有“对象”和“数组”的语义区分,同一标签多次出现时,xml.etree 默认生成重复的同名 key,而 PyYAML 序列化时若不干预,会把它们压成一个 list;但若只出现一次,又变成 dict —— 导致 YAML 结构不稳定。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 遍历前统一判断子节点重复性:
len(root.findall("child")) > 1,是则强制转为 list,否则转为 dict - 避免用
dict()直接构造嵌套结构,改用collections.OrderedDict(Python - 对文本内容做显式提取:
elem.text.strip() if elem.text else "",空文本、换行、缩进不清理会导致 YAML 里冒出一堆|或>块格式
中文、特殊字符或 CDATA 内容在 YAML 中显示异常
XML 里的中文直接进 Python 字符串没问题,但 PyYAML 默认用 ASCII 编码 dump,会把中文转成 \u4f60\u597d;CDATA 中的内容若含单引号、冒号或换行,YAML 可能解析失败或格式错乱。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- dump 时必须加参数:
yaml.dump(data, allow_unicode=True, default_flow_style=False) - CDATA 内容本质是纯文本,解析时用
elem.text即可,无需额外解码;但要检查是否含未转义的]]>,否则 XML 解析器可能提前截断 - 属性值中的引号(如
value="don't")会被 PyYAML 自动加双引号包裹,无需手动 escape,但若想强制单引号风格,得自定义Representer
大文件内存爆掉或转换后 YAML 缺少注释
xml.etree.ElementTree.parse() 是全量加载,百 MB 级 XML 很容易 OOM;而 XML 注释(<!-- ... -->)在标准解析器里直接丢弃,YAML 输出天然不带注释。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 超大文件改用
xml.etree.ElementTree.iterparse(),边读边转,用clear()清理已处理节点,内存占用可控制在 MB 级 - 注释不可恢复,别试图从
ElementTree提取 —— 如果原始 XML 注释关键,只能换lxml+ 自定义 parser,但会增加依赖和复杂度 - 转换脚本加个简单校验:用
yaml.safe_load()重新 load 一遍输出内容,捕获yaml.YAMLError,防止生成非法 YAML
真正麻烦的是混合类型字段(比如某个 <port>8080</port> 有时是数字有时是字符串),XML 不约束类型,但 YAML 会自动推断,一不小心就导出成整数,后续被其他系统当 string 用就出问题 —— 这类得靠 schema 或白名单硬指定类型。










