0

0

怎么用Apache Spark的spark-xml包读取XML数据

幻夢星雲

幻夢星雲

发布时间:2025-12-21 13:14:02

|

752人浏览过

|

来源于php中文网

原创

用 spark-xml 读取 xml 需先添加对应 spark/scala 版本的依赖,再通过 dataframereader 的 xml 方法加载,关键指定 rowtag 选项以标识记录节点,支持属性前缀、文本列名等解析控制,但不原生支持命名空间和非规则结构。

怎么用apache spark的spark-xml包读取xml数据

用 Apache Spark 的 spark-xml 包读取 XML 数据,核心是先添加依赖,再调用 DataFrameReaderxml 方法。它不是 Spark 内置格式,必须显式引入第三方包。

添加 spark-xml 依赖

根据你的 Spark 和 Scala 版本选择对应版本的 spark-xml。常见组合:

  • Spark 3.5.x + Scala 2.12 → com.databricks:spark-xml_2.12:0.17.0
  • Spark 3.4.x + Scala 2.12 → com.databricks:spark-xml_2.12:0.16.0
  • Spark 3.3.x + Scala 2.12 → com.databricks:spark-xml_2.12:0.15.0

启动 spark-shell 时用 --packages 参数加载:

spark-shell --packages com.databricks:spark-xml_2.12:0.17.0

或在 PySpark 中用 SparkSession.builder.config("spark.jars.packages", "...") 设置。

基础读取方式(Scala/Python)

XML 文件需有统一根节点和结构化子元素(如每条记录是 <row>...</row>),否则解析可能失败。

Scala 示例:

val df = spark.read.format("xml")
  .option("rowTag", "book")
  .load("books.xml")

Python(PySpark)示例:

Veed AI Voice Generator
Veed AI Voice Generator

Veed推出的AI语音生成器

下载
df = spark.read.format("xml") \
  .option("rowTag", "book") \
  .load("books.xml")

关键点rowTag 指定每条记录对应的 XML 标签名(如 <book></book>),不设默认为 row;路径支持本地文件、HDFS、S3 等。

常用解析选项

XML 结构复杂时,靠这些选项控制解析行为:

  • attributePrefix:指定属性前缀(默认 _),比如 <book id="1"></book> → 列名 _id
  • valueTag:指定文本内容列名(默认 value),用于处理 <name>Spark</name> 这类纯文本标签
  • ignoreSurroundingSpaces:是否忽略标签内首尾空格(true 更安全)
  • excludeAttribute:设为 true 可跳过所有属性,只保留子元素
  • inferSchema:是否自动推断字段类型(true 默认开启,但深层嵌套可能不准,可关掉后手动 cast)

处理嵌套与命名空间

带命名空间的 XML(如 <book xmlns:ns="http://example.com"></book>)需先去掉前缀或预处理——spark-xml 原生不支持命名空间解析。

嵌套结构(如 <book><author><name>Alice</name></author></book>)会自动转成嵌套字段:author.name。若想扁平化,可用 df.select("author.name") 或配合 explode 展开数组字段。

如果 XML 没有统一 rowTag(比如顶层是 <library><book>...</book></library>),建议先用 XSLT 或外部工具预处理,或改用 text 格式读入后用正则/UDF 解析——spark-xml 不适合解析非规则混合结构。

基本上就这些。不复杂但容易忽略 rowTag 和依赖版本匹配,跑通第一步后,后续清洗和转换就跟普通 DataFrame 一样操作。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

867

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

459

2024.06.27

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1944

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2118

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1162

2024.11.28

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1003

2023.11.02

Java 大数据处理基础(Hadoop 方向)
Java 大数据处理基础(Hadoop 方向)

本专题聚焦 Java 在大数据离线处理场景中的核心应用,系统讲解 Hadoop 生态的基本原理、HDFS 文件系统操作、MapReduce 编程模型、作业优化策略以及常见数据处理流程。通过实际示例(如日志分析、批处理任务),帮助学习者掌握使用 Java 构建高效大数据处理程序的完整方法。

727

2025.12.08

apache是什么意思
apache是什么意思

Apache是Apache HTTP Server的简称,是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一,由Apache软件基金会开发和维护,Apache具有稳定、安全和高性能的特点,得益于其成熟的开发和广泛的应用实践,被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程,希望对各位有所帮助。

419

2023.08.23

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号