XML实体是XML中用于代表特殊字符、重复文本或外部内容的命名占位符,通过声明和&name;引用实现替换。

XML实体到底是什么
XML实体是XML中用来代表特殊字符、重复文本或外部内容的命名占位符。它不是变量,也不是宏,而是一种声明—引用机制:先用声明一个名字,之后在文档里用&name;引用,XML解析器会自动替换为对应值。
如何定义和使用内部实体(常用字符快捷方式)
内部实体适合定义文档内高频出现的字符串,比如版权符号、公司名、路径前缀等。必须在DTD中声明,且只能在内部(或外部DTD中)。
常见错误现象:Reference to undeclared entity——没声明就直接用©;或者把实体声明写在根元素之后,导致解析失败。
- 声明语法:
- 引用方式:
&entity_name;(注意开头是&,不是&) - 实体名必须以字母或下划线开头,不能含空格或特殊符号
- 字符串中若含
",需改用'定界,或用"转义
]>
为什么©这类预定义实体不能自定义覆盖
XML本身只预定义了5个实体:& zuojiankuohaophpcn youjiankuohaophpcn ' "。它们是解析器硬编码支持的,不依赖DTD声明。你无法用去“重定义”©——这个名称不会被识别,除非你显式声明并用©引用它(此时它就是你自己的实体,跟HTML里的©无关)。
容易踩的坑:
- 误以为
©在XML里天然可用(实际不可,必须自己声明) - 在没有DTD的XML文档中尝试用自定义实体(会报错,因为无处声明)
- 把实体值设为空字符串或仅空白符——部分解析器可能拒绝或行为不一致
外部实体与安全风险(简要提醒)
用可引入外部文件,但现代XML解析器默认禁用外部实体(XXE),因为极易引发读取本地文件、端口探测等漏洞。日常定义“快捷字符”完全不需要外部实体,坚持用内部实体即可。
真正容易被忽略的一点:即使你只用内部实体,如果XML被交给一个未关闭外部实体的旧版解析器(如某些Java SAX老配置),且文档中意外混入SYSTEM声明,风险仍存在。所以——不声明外部实体,是最稳妥的“快捷方式”实践。









