XML实体分内部和外部两类,用于表示特殊字符、重复内容或外部资源;内部实体在DTD中直接定义值,外部实体通过SYSTEM或PUBLIC引用外部资源,但现代解析器默认禁用外部实体以防XXE攻击。

XML实体用于在文档中代表特殊字符、重复内容或外部资源,自定义实体分内部实体和外部实体两类。关键在于<!ENTITY ...>声明的位置与语法是否符合DTD规范,且需注意现代解析器默认禁用外部实体(XXE)以防范安全风险。
定义内部实体(不访问外部文件)
内部实体直接在DTD中定义值,常用于简化重复文本或插入特殊字符:
- 在文档内部DTD中声明:
<!DOCTYPE root [ <!ENTITY copyright "© 2024 My Company" > ]> - 在XML文档中引用:
©right;→ 解析后显示为“© 2024 My Company” - 支持参数实体(仅在DTD内使用),用
%name;引用,声明时加百分号:<!ENTITY % commonAttrs "id ID #IMPLIED class CDATA #IMPLIED">
声明外部实体(引用外部资源)
外部实体指向本地文件或URL,语法需指定SYSTEM或PUBLIC标识符:
- 引用本地文件:
<!ENTITY footer SYSTEM "footer.txt">,然后在文档中用&footer; - 引用远程内容(不推荐):
<!ENTITY remote SYSTEM "http://example.com/data.xml"> - PUBLIC实体适合标准化资源:
<!ENTITY html PUBLIC "-//W3C//ENTITIES HTML 4.01//EN" "html-entities.dtd">
注意:大多数现代XML解析器(如Java的DocumentBuilder、Python的xml.etree.ElementTree)默认禁用外部实体解析,启用需显式配置,否则会报错或静默忽略。
安全提醒:避免XXE攻击
外部实体若处理不当,可能被用于读取敏感文件(如/etc/passwd)、发起SSRF或拒绝服务攻击:
- 禁止使用
SYSTEM引用用户可控路径或URL - 解析XML前关闭外部实体加载:例如Java中设置
setFeature("http://apache.org/xml/features/disallow-doctype-decl", true) - 如必须用外部实体,应白名单校验系统标识符,或改用内部实体+预加载内容方式替代
实际可用的小技巧
即使禁用外部实体,仍可灵活使用内部实体提升可维护性:
- 把长命名空间URI定义为实体:
<!ENTITY ns "http://mycompany.com/schema/v2">,再在元素中写xmlns:my="&ns;" - 用参数实体组织DTD模块:
<!ENTITY % coreElements SYSTEM "core-elements.ent"> %coreElements;(需解析器支持并启用参数实体) - UTF-8文档中优先用字符引用(
✅)代替实体,减少DTD依赖
基本上就这些。实体不是必须的,但用对了能让XML更清晰、更易复用;用错了,轻则解析失败,重则引发安全问题。










