0

0

XML上传安全性 XXE漏洞在文件上传时如何防范

星降

星降

发布时间:2026-02-03 10:34:33

|

842人浏览过

|

来源于php中文网

原创

XXE漏洞源于XML解析器默认加载外部实体,需显式禁用DOCTYPE和外部实体;防御须在解析前校验内容、优先使用defusedxml等安全库,并推荐改用JSON等无实体格式。

xml上传安全性 xxe漏洞在文件上传时如何防范

XML解析器默认开启外部实体导致XXE

绝大多数XML解析器(如Java的DocumentBuilder、Python的xml.etree.ElementTree、PHP的libxml)在默认配置下会加载并解析外部实体(DOCTYPE中的SYSTEMPUBLIC声明),这是XXE漏洞的根本成因。上传的XML文件一旦包含恶意 ]>,就可能触发敏感文件读取、SSRF甚至命令执行。

关键不是“要不要解析XML”,而是“是否显式禁用外部实体”。依赖框架默认行为等于裸奔。

  • Java:必须调用setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)setFeature("http://xml.org/sax/features/external-general-entities", false)
  • Python:xml.etree.ElementTree不安全,改用defusedxml.ElementTree;若用lxml,需设置parser = etree.XMLParser(resolve_entities=False)
  • PHP:调用libxml_disable_entity_loader(true)(注意:PHP 8.0+已废弃该函数,应改用LIBXML_NOENT | LIBXML_DTDLOAD等标志位控制)

仅校验文件后缀或Content-Type无法阻止XXE

攻击者可将恶意XML内容保存为report.pdfimage.jpg,再通过Content-Type: image/jpeg绕过前端/中间件的MIME类型检查。后端若仍按XML解析,XXE照常触发。

真正有效的校验是:在解析前确认内容确实是可信的XML结构,且不含危险声明。

大同搜索
大同搜索

多语言高质量的AI搜索

下载
  • 对上传文件先做轻量级文本扫描:拒绝包含/code>、SYSTEMPUBLIC的原始字节流(注意编码绕过,如UTF-16 BOM + 混淆空格)
  • 不要只检查首行或前1KB,XXE实体定义可能出现在任意位置
  • 避免正则硬匹配——/code>更健壮,但仍有被绕过风险;优先用解析器自身的禁用机制

用非XML格式替代是最彻底的防御

如果业务逻辑允许,直接放弃XML上传,改用JSON、YAML(需禁用!!python/object等危险标签)、CSV等无实体机制的格式。这不是妥协,而是消除攻击面的最有效手段。

很多所谓“必须用XML”的场景,其实只是历史接口约定,后端完全可兼容多格式并强制降级处理。

  • API层统一接受application/json,XML请求返回415 Unsupported Media Type
  • 遗留系统集成时,在网关层做XML→JSON转换(如用XSLT或xmllint --xpath提取后转JSON),后端只处理JSON
  • 若必须存XML,也应在入库前剥离DOCTYPEENTITY节点,仅保留...内纯内容
import defusedxml.ElementTree as ET
try:
    tree = ET.parse(upload_file)
except ET.ParseError as e:
    raise ValueError("Invalid or unsafe XML content") from e
# defusedxml 已默认禁用外部实体,无需额外配置

XXE的隐蔽性在于它不依赖代码执行,只靠解析器特性就能泄露数据。哪怕你把所有evalexec都封死,只要XML解析器开着外部实体,上传一个文件就可能让服务器自曝内网IP或数据库密码。禁用开关的位置、时机、作用域,三者缺一不可。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是中间件
什么是中间件

中间件是一种软件组件,充当不兼容组件之间的桥梁,提供额外服务,例如集成异构系统、提供常用服务、提高应用程序性能,以及简化应用程序开发。想了解更多中间件的相关内容,可以阅读本专题下面的文章。

178

2024.05.11

Golang 中间件开发与微服务架构
Golang 中间件开发与微服务架构

本专题系统讲解 Golang 在微服务架构中的中间件开发,包括日志处理、限流与熔断、认证与授权、服务监控、API 网关设计等常见中间件功能的实现。通过实战项目,帮助开发者理解如何使用 Go 编写高效、可扩展的中间件组件,并在微服务环境中进行灵活部署与管理。

217

2025.12.18

json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

425

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

538

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

78

2025.09.10

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1907

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2095

2024.08.01

Python 序列化
Python 序列化

本专题整合了python序列化、反序列化相关内容,阅读专题下面的文章了解更多详细内容。

12

2026.02.02

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.9万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号