Python-docx 不应直接修改底层 XML,因其易破坏文档结构且缺乏验证;推荐通过 .element 属性获取 lxml 元素,配合 qn 和 OxmlElement 安全微调,如设置加粗属性。

Python-docx 并不直接暴露或鼓励用户修改底层 XML 结构。它是一个高层抽象库,设计目标是通过 Python 对象(如 Document、Paragraph、Run)操作文档语义内容,而非手动编辑 OpenXML 标签。
为什么不应直接改底层 XML
Word 文档(.docx)本质是 ZIP 压缩包,内部包含大量 XML 文件(如 document.xml、styles.xml),它们之间有严格引用关系和命名空间约束。直接修改:
- 极易破坏文档结构,导致 Word 打开时报错或自动修复(丢失格式/内容)
-
python-docx 不会验证你改过的 XML,也不会同步更新相关部件(如
numbering.xml或settings.xml) - 同一逻辑在不同 Word 版本或复杂样式下行为可能不一致
如果真需要控制 XML 级别,推荐方式
python-docx 提供了有限但安全的“透出”机制,让你在关键节点访问并微调底层 lxml.etree.Element 对象:
-
获取元素:用
.element属性拿到对应 XML 元素,例如:paragraph.element返回节点 -
添加/修改属性:用
.set()设置命名空间属性,如run.element.set(qn('w:val'), 'true') -
插入子元素:用
lxml.etree.SubElement()添加标准 OpenXML 子节点(需正确使用命名空间) -
注意命名空间:必须用
from docx.oxml import qn包装标签名,例如qn('w:b')而不是硬写'w:b'
一个安全修改加粗状态的例子
想强制让某段文字的某个 Run 显示为加粗(绕过样式继承):
立即学习“Python免费学习笔记(深入)”;
from docx import Document from docx.oxml import OxmlElement, qndoc = Document('input.docx') p = doc.paragraphs[0] r = p.runs[0]
获取底层 w:r 元素
r_el = r.element
创建 w:rPr(运行属性)如果不存在
rPr = r_el.get_or_add_rPr()
创建并插入 w:b(加粗)元素
b = OxmlElement('w:b') b.set(qn('w:val'), 'true') rPr.append(b)
doc.save('output.docx')
更复杂需求的替代方案
若需深度定制 XML(如自定义 XML 部件、内容控件、数学公式、特殊标记):
- 用
python-docx生成基础结构,再用zipfile解压 docx,手动编辑 XML 文件,重新打包 - 改用
lxml+zipfile全手动处理 OpenXML(适合熟悉 ECMA-376 规范的开发者) - 考虑
docxtpl库——基于 jinja2 模板,更适合带逻辑的批量 XML 定制
基本上就这些。直接改 XML 不是 python-docx 的设计路径,用好 .element + qn + OxmlElement 已能满足绝大多数“靠近底层”的需求,既可控又不易崩。










