0

0

XML文件如何引用外部实体 SYSTEM关键字引入外部文件

星降

星降

发布时间:2026-02-16 00:05:34

|

230人浏览过

|

来源于php中文网

原创

现代xml解析器默认禁用system外部实体,需显式配置才能启用,且各库开关方式不同;路径解析基准为当前工作目录而非xml所在目录;启用后存在xxe风险,应优先禁用doctype声明或改用显式api加载。

xml文件如何引用外部实体 system关键字引入外部文件

XML解析器默认禁用SYSTEM外部实体,不配置就根本不会加载

绝大多数现代XML解析器(如Python的xml.etree.ElementTree、Java的DocumentBuilder、libxml2)默认关闭外部实体解析,哪怕XML里写了,也不会读取。这不是“写法不对”,而是安全策略生效了——你得主动打开,且不同库开关位置和方式完全不同。

  • lxml需显式传resolve_entities=True并禁用load_dtd=False(否则报错)
  • xml.etree.ElementTree根本不支持SYSTEM实体,连开关都没有,硬上会直接忽略或抛ParseError
  • Java的DocumentBuilderFactory要调setFeature("http://apache.org/xml/features/disallow-doctype-decl", false)再设setFeature("http://xml.org/sax/features/external-general-entities", true)

SYSTEM引用本地文件时路径行为极不统一

相对路径基准点不是XML文件所在目录,而是解析器当前工作目录(pwd),这点在脚本中极易出错。比如SYSTEM "config.xml"可能去读/home/user/config.xml而非/opt/app/config.xml,且Windows和Linux对file://协议处理差异大。

MCP官网
MCP官网

Model Context Protocol(模型上下文协议)

下载
  • 绝对路径如SYSTEM "/etc/hosts"在Linux下有效,但Windows需写成SYSTEM "C:\Windows\System32\drivers\etc\hosts"SYSTEM "file:///C:/Windows/System32/drivers/etc/hosts"
  • HTTP路径如SYSTEM "http://example.com/entity.txt"依赖解析器是否启用网络访问(很多生产环境默认禁用)
  • 路径中含空格或中文时,file://必须URL编码,否则lxml直接报IOError: Error reading file

开启SYSTEM实体=打开XXE漏洞入口,没做隔离等于裸奔

一旦允许SYSTEM,攻击者可通过恶意DTD触发任意文件读取、SSRF甚至命令执行(如PHP的expect://)。不是“我只读自己文件就安全”,因为实体可嵌套、可间接引用、可由用户输入拼接。

  • 禁用DOCTYPE声明是最彻底方案:lxmlresolve_entities=Falseno_network=TrueElementTree干脆不用它
  • 若真需外部内容,改用显式API加载:with open("config.xml") as f: tree = ET.parse(f),而非依赖解析器自动拉取
  • Java中务必同时关闭external-parameter-entitiesload-external-dtd,单关一个仍可能被绕过

SYSTEM实体无法跨解析上下文复用,别指望一次定义到处用

实体作用域严格限定在声明它的XML文档内,SYSTEM引用的文件内容只是文本替换,不会变成全局变量或导入模块。常见误解是以为定义了后,所有后续XML都能用&version;——实际每个文件都得单独声明。

  • 实体内容不解析嵌套:如果version.txt里含<tag></tag>,会被原样插入,不会被当XML节点处理
  • 字符编码必须与主文档一致,否则lxmlUnicodeDecodeError,不能靠encoding="utf-8"参数覆盖外部文件编码
  • 修改外部文件后,已解析的DOM树不会自动更新,重载需重新调用parse()
事情说清了就结束

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1927

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2103

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1123

2024.11.28

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

338

2023.10.25

全局变量怎么定义
全局变量怎么定义

本专题整合了全局变量相关内容,阅读专题下面的文章了解更多详细内容。

85

2025.09.18

python 全局变量
python 全局变量

本专题整合了python中全局变量定义相关教程,阅读专题下面的文章了解更多详细内容。

101

2025.09.18

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

3743

2024.08.14

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

145

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号