
在处理XML数据时,经常会遇到需要解析包含多个相同标签的元素,也就是所谓的“XML数组”。虽然XML本身没有“数组”这个概念,但通过重复的子元素可以模拟数组结构。解析这类结构的关键是识别具有相同标签名的多个子节点,并将它们作为集合来处理。
使用DOM解析XML数组
DOM(Document Object Model)将整个XML文档加载到内存中,形成树结构,适合小到中等大小的文件。
操作步骤:- 加载XML文档并创建Document对象
- 使用getElementsByTagName()获取具有相同标签名的所有元素
- 遍历NodeList,提取每个节点的文本内容或属性
示例代码(Java):
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(new InputSource(new StringReader(xmlString)));
NodeList nodes = doc.getElementsByTagName("item");
for (int i = 0; i < nodes.getLength(); i++) {
Element element = (Element) nodes.item(i);
System.out.println(element.getTextContent());
}
使用SAX解析XML数组
SAX(Simple API for XML)是事件驱动的流式解析器,适合大文件,不占用大量内存。
关键点:- 重写startElement和endElement方法来捕获标签开始和结束
- 用布尔标志判断当前是否处于目标“数组项”标签内
- 在字符数据回调中收集内容
当遇到多个同名标签时,每次触发对应事件即可视为一个数组元素的开始。
使用XPath定位XML数组元素
XPath是一种强大的查询语言,可直接定位重复元素。
优点:- 语法简洁,可精确选择节点
- 支持条件过滤,如 //items/item[position()
示例(Java):
XPath xpath = XPathFactory.newInstance().newXPath();
NodeList result = (NodeList) xpath.compile("//book").evaluate(doc, XPathConstants.NODESET);
for (int i = 0; i < result.getLength(); i++) {
System.out.println(result.item(i).getAttributes().getNamedItem("title").getNodeValue());
}
使用第三方库(如Jsoup、JAXB、SimpleXML)
对于Android或简化开发,可选用便捷库。
建议:- Jsoup虽主要用于HTML,也可解析格式良好的XML
- JAXB可通过注解将XML映射为Java对象数组
- SimpleXML支持直接将重复标签映射为List字段
例如在SimpleXML中,定义List
基本上就这些常见方式。选择哪种方法取决于性能需求、文件大小和开发环境。DOM直观易用,SAX节省内存,XPath灵活查询,而框架则提升开发效率。










