0

0

如何用PHP的XMLReader和XMLWriter处理大文件

幻夢星雲

幻夢星雲

发布时间:2025-12-29 17:12:43

|

216人浏览过

|

来源于php中文网

原创

php 的 xmlreader 和 xmlwriter 可流式处理 gb 级 xml 文件,不加载全文到内存;xmlreader 逐节点读取、内存仅数百 kb,xmlwriter 边写边输出、实时生成,二者组合可实现边读边转的低内存 etl 处理。

如何用php的xmlreader和xmlwriter处理大文件

用 PHP 的 XMLReaderXMLWriter 处理大 XML 文件,核心是**流式读写、不加载全文到内存**。它们专为节省内存而设计,适合 GB 级 XML——只要逻辑清晰、节点边界明确,就能稳定运行。

用 XMLReader 逐节点流式读取

XMLReader 是只读游标式解析器,像“文件指针”一样前进,每次只载入当前节点(甚至可配置为只读特定标签)。它不构建 DOM 树,内存占用通常仅几百 KB。

  • 创建实例后调用 open() 打开文件(支持本地路径、URL、甚至 php://memory
  • read() 向前移动到下一个节点;用 moveToElement()moveToAttribute() 切换上下文
  • 通过 nodeType 判断类型(XMLReader::ELEMENTXMLReader::TEXTXMLReader::END_ELEMENT)来识别开始标签、文本内容、结束标签
  • 对目标元素(如 <item></item>),可用 readInnerXML() 获取其完整子树(仍流式,不全载入),或配合 expand() 转成 SimpleXML/DOMNode 做局部处理

示例:提取所有 <book></book> 下的 <title></title> 文本

$reader = new XMLReader();
$reader->open('books.xml');
while ($reader->read()) {
    if ($reader->nodeType == XMLReader::ELEMENT && $reader->localName == 'title') {
        $reader->read(); // 移动到 TEXT 节点
        if ($reader->nodeType == XMLReader::TEXT) {
            echo $reader->value . "\n";
        }
    }
}
$reader->close();

用 XMLWriter 流式生成大 XML 文件

XMLWriter 是“边写边输出”的生成器,调用 writeElement()startElement() 等方法时直接写入目标(文件、字符串、stream),不缓存整棵树。

久久企业网站后台管理系统1.0
久久企业网站后台管理系统1.0

一、功能简介本软件完全适应大、中、小型网站建设需要,让您用很便宜的虚拟主机空间也可以开通4个独立的网站!久久企业网站后台管理系统各种版本开发基础架构均为php+mysql+div+css+伪静态,迎合搜索引擎排名的喜好。另外值得一提的是本站特色的TAG系统可为您的网站做出无限分类,不用任何设置全站ULR伪静态!本建站系统除了有产品发布、新闻(软文)发布、订单管理系统和留言反馈等一些最基本的功能之外

下载

立即学习PHP免费学习笔记(深入)”;

  • openURI() 指向文件路径,或 openMemory() + outputMemory() 分块获取内容
  • 注意手动配对 startElement() / endElement(),避免标签嵌套错乱
  • 写属性用 writeAttribute(),写 CDATA 用 writeCData(),写注释用 writeComment()
  • 若需格式化缩进,启用 setIndent(true) 并设 setIndentString(" ") ,但会轻微增加开销,大文件中可酌情关闭

示例:生成含 10 万条记录的 <users></users> 文件

$writer = new XMLWriter();
$writer->openURI('users.xml');
$writer->startDocument('1.0', 'UTF-8');
$writer->startElement('users');

for ($i = 1; $i <= 100000; $i++) {
    $writer->startElement('user');
    $writer->writeAttribute('id', (string)$i);
    $writer->writeElement('name', "User $i");
    $writer->writeElement('email', "user$i@example.com");
    $writer->endElement(); // </user>
}

$writer->endElement(); // </users>
$writer->endDocument();
$writer->flush();

Reader + Writer 组合:边读边转(如格式转换、过滤)

这是最典型的大文件处理场景:读一个大 XML,按规则清洗/筛选/重组,实时写入新文件。全程内存可控,适合 ETL 类任务。

  • 保持两个对象实例:一个 XMLReader 读源文件,一个 XMLWriter 写目标文件
  • XMLReader 的深度(depth)或命名判断当前是否在目标数据块内(例如 <order></order> 内才开始写)
  • 对需保留的节点,用 $reader->readOuterXML() 获取原始片段直接写入(跳过解析),提升速度;对需修改的节点,读出值再由 XMLWriter 重写
  • 注意编码一致性:确保 XMLReaderXMLWriter 都使用 UTF-8(源文件声明、open 参数、startDocument 第二参数均需匹配)

避坑要点与性能提示

  • 始终检查 open() 返回值,失败时 libxml_get_errors() 可查具体错误(如编码不匹配、BOM 头干扰)
  • 避免在循环中频繁调用 expand() 转 DOM —— 它会把当前节点子树载入内存,大节点可能崩
  • XMLReader::setParserProperty(XMLReader::SUBST_ENTITIES, false) 关闭实体替换,防止恶意 &xx; 耗尽内存
  • 写文件时,用 ob_flush() + flush() 强制输出缓冲(尤其配合 web SAPI 时),但 CLI 下通常无需
  • 测试时先用小样本验证逻辑,再用真实大文件跑,观察内存峰值(memory_get_peak_usage())是否稳定在几 MB 内

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1944

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2118

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1162

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

738

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1562

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1188

2024.03.22

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

46

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.1万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号