外部实体通过DTD引用外部资源以提升XML复用性,可使用SYSTEM或PUBLIC关键字定义,但需防范XXE攻击风险并确保路径安全。

在XML文档中引用外部实体,主要通过文档类型定义(DTD)来实现。外部实体允许你将常用文本、重复内容或外部资源引入XML文档,提升复用性和可维护性。
什么是外部实体
外部实体是定义在XML文档外部的数据块,可以通过DTD进行声明和引用。与内部实体不同,外部实体指向一个独立的文件或URL资源。
外部实体常用于:
- 包含公共文本片段(如版权信息)
- 引用标准数据结构或配置
- 加载外部XML或文本内容
如何定义外部实体(DTD语法)
要在XML中使用外部实体,首先需要在DOCTYPE声明中定义它。语法如下:
]>
说明:
- SYSTEM 表示系统标识符,指向本地或网络上的资源文件
- URI或文件路径 可以是相对路径、绝对路径或URL
- 实体名在文档中通过 &实体名; 的形式引用
示例:
]>
如果 company.txt 内容为:
Example Corp
解析后 message 元素内容会包含 "Hello, this is from Example Corp"。
使用公共外部实体(PUBLIC)
除了 SYSTEM,还可以使用 PUBLIC 关键字引用标准化的公共资源,通常配合公共标识符使用:
例如引用一个标准的字符集定义:
html-chars PUBLIC "-//W3C//ENTITIES HTML Characters//EN" "htmlchars.ent">这种形式常见于行业标准文档中,便于统一管理通用实体。
注意事项与安全问题
虽然外部实体功能强大,但使用时需注意:
- 不是所有XML解析器默认启用外部实体解析,部分出于安全考虑会禁用
- 存在XXE(XML External Entity)攻击风险,特别是当解析用户提交的XML时
- 建议在生产环境中关闭外部实体加载,除非明确需要
- 确保引用的文件路径安全,避免泄露敏感文件
基本上就这些。合理使用外部实体能提升XML的模块化能力,但务必注意安全配置。










