SAX解析器采用事件驱动模型,以流方式逐行解析XML,通过startElement()、endElement()和characters()等回调方法处理开始标签、结束标签和文本内容,无需加载整个文档,内存占用低,适合处理大型文件。

SAX解析器是一种用于解析XML文档的事件驱动模型,全称为Simple API for XML Parsing。它不同于DOM(Document Object Model)那样将整个XML文档加载到内存中构建树结构,而是以流的方式逐行读取XML内容,当遇到特定元素如开始标签、结束标签、文本内容等时,触发相应的事件回调方法。
工作原理:基于事件的处理机制
SAX采用推模型(push model),解析器在读取XML过程中主动通知程序发生了哪些事件。开发者需要预先定义一个处理器类(通常继承DefaultHandler),重写其中的关键方法来响应这些事件:
- startDocument():文档开始时调用
- endDocument():文档结束时调用
- startElement():遇到开始标签时触发,可获取元素名和属性
- endElement():遇到结束标签时触发
- characters():读取标签间的文本内容,注意可能被分段调用
由于SAX不保留XML结构信息,处理完即释放资源,因此内存占用极低,适合处理大型XML文件。
Java中的使用示例
在Java中,SAX解析器由JAXP(Java API for XML Processing)提供支持,核心类位于javax.xml.parsers包中:
立即学习“Java免费学习笔记(深入)”;
- SAXParserFactory:用于创建SAXParser实例
- SAXParser:实际执行解析过程
- DefaultHandler:方便扩展的空实现处理器
典型代码流程是通过工厂获取解析器对象,然后传入自定义处理器和输入源(如File或InputStream)启动解析。整个过程同步进行,无法暂停或随机访问节点。
优点与局限性
SAX的最大优势在于高效和低内存消耗,适用于只需要遍历一次XML且对性能要求高的场景,比如日志分析、数据导入等。
但它也有明显限制:不能修改文档结构,不能回退或重复访问已处理的内容,编程模型相对复杂,需手动维护状态(例如用栈跟踪当前路径)。
基本上就这些。SAX适合你清楚知道要提取什么字段,并能通过监听事件流完成任务的情况。不复杂但容易忽略的是characters()方法可能被多次调用,必须正确拼接文本片段。











