0

0

Java SAX ContentHandler教程 自定义事件处理器解析XML

畫卷琴夢

畫卷琴夢

发布时间:2026-02-25 00:11:11

|

140人浏览过

|

来源于php中文网

原创

必须重写startelement、endelement和characters方法;它们是sax解析xml结构、标签闭合和文本内容的事实入口,缺一不可。

java sax contenthandler教程 自定义事件处理器解析xml

ContentHandler 接口里哪些方法必须重写?

不重写 startElementendElement,就拿不到标签结构;不重写 characters,文本内容全丢。SAX 不是“选配”,是“必填”——DefaultHandler 虽提供了空实现,但真解析 XML 时,这三个就是事实上的入口。

常见错误:只重写 startElement,以为能靠它“抓到所有信息”。结果发现 characters 返回的 char[] 带前后空白、换行,甚至跨多次回调(尤其大文本或含 CDATA),没做缓冲合并就直接 toString(),内容就断成几截。

  • characters 的 char[] 是只读快照,不能存引用,得拷贝或用 new String(ch, start, length)
  • 标签嵌套时,startElementendElement 的调用顺序严格匹配,可借栈或 depth 计数跟踪上下文
  • 如果需要属性值,从 Attributes 参数里取,别去解析 characters —— 属性不在那里

为什么 parse() 抛 SAXParseException 却没行号?

默认 XMLReader 不开启定位支持。即使 XML 文件本身有错,getLineNumber()getColumnNumber() 也常返回 -1。

必须显式设置特性:setFeature("http://xml.org/sax/features/validation", false) 没问题,但关键在:setFeature("http://xml.org/sax/features/namespace-prefixes", true) 不影响定位;真正要开的是:setFeature("http://apache.org/xml/features/dom/include-ignorable-whitespace", false) —— 这个不相关。正解是确保底层解析器支持,并启用定位特性:

立即学习Java免费学习笔记(深入)”;

拾贝
拾贝

一键同步微信读书所有笔记和划线,并在新标签页回顾

下载
  • SAXParserFactory.newInstance().newSAXParser() 创建的 parser 默认支持定位
  • 但若手动 new XMLReader(比如 XMLReaderFactory.createXMLReader()),需确认具体实现类(如 org.apache.xerces.parsers.SAXParser)并调用 setFeature("http://xml.org/sax/features/locator", true)
  • 更稳妥做法:始终通过 SAXParser 获取 XMLReader,它已预设好定位能力

自定义 ContentHandler 如何安全提取嵌套字段?

比如解析 <book><author><name>Zhang</name></author></book>,想拿到 author.name。不能靠字符串拼接标签名,得用状态机或路径栈。

容易踩的坑:用一个 String currentPath = ""startElement 里拼接,遇到同名子标签(如多个 <item></item>)就串场;或者在 characters 里盲目赋值,结果把外层 <title></title> 的内容刷到了内层字段上。

  • 推荐用 Deque<string></string> 记录当前路径,startElement push,endElement pop
  • 只在栈顶是 "author" 且次顶是 "book" 时才处理后续 name 标签,避免误匹配
  • characters 回调可能发生在任意标签内,务必检查当前栈状态再决定是否采集
  • 别在 characters 里直接 set 字段——先缓存 StringBuilder,等对应 endElement 触发后再赋值

和 DOM / StAX 比,SAX 在什么场景下真合适?

内存受限、流式处理、只读单遍扫描——这是 SAX 的真实地盘。不是“学了更高级”,而是“不用它就 OOM”。

比如解析 200MB 的日志 XML 流,DOM 会吃掉 1GB+ 堆内存;StAX 虽然也流式,但需要手动控制事件循环,写起来啰嗦。SAX 的 callback 模型反而更贴近“来了就处理”的直觉。

  • 适合:ETL 清洗、配置批量校验、日志聚合、生成摘要(如统计某标签出现次数)
  • 不适合:需要随机访问节点、反复修改结构、依赖 XPath 查询——这些时刻,SAX 就是自找麻烦
  • 兼容性没问题:JDK 1.4+ 自带,无需额外依赖;但注意 Android 早期版本对某些 Xerces 特性支持不全

最易被忽略的一点:SAX 是单线程的,parse() 是阻塞调用,且 ContentHandler 实例不能复用——每次 parse 都该 new 一个新 handler,否则字段状态会串。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

850

2023.08.02

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1934

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2109

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1135

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

642

2023.11.24

Golang 生态工具与框架:扩展开发能力
Golang 生态工具与框架:扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路,涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式,帮助开发者构建高效、可维护的 Go 工程体系,并提升团队协作与交付效率。

1

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 3.8万人学习

C# 教程
C# 教程

共94课时 | 10.1万人学习

Java 教程
Java 教程

共578课时 | 71.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号