Python Spark 应用的监控指标

舞姬之光

发布时间：2026-02-16 13:51:10

889人浏览过

来源于php中文网

原创

spark ui打不开或指标为空，主因是监控未启用、端口冲突或配置错误；metrics.properties需严格路径/格式；executor shuffle明细需手动开启显示；prometheus上报须配sink类、端口及namespace。

python spark 应用的监控指标

Spark UI 端口打不开或指标为空

本地开发或 YARN 集群上跑 spark-submit 后，http://localhost:4040（或对应 driver 端口）打不开，或者打开后 Jobs/Stages/Storage 页面全是空的——大概率是 Spark 没启用监控模块，或端口被占、网络隔离。

确认启动时没加 --conf spark.ui.enabled=false；默认是 true，但有些打包脚本会误关
Driver 进程必须存活，且未设置 spark.ui.port 为 0（这会让 Spark 随机选端口，得看日志找实际值）
YARN 模式下，spark.ui.port 无效，要用 spark.yarn.appMasterEnv.SPARK_UI_PORT 或直接查 YARN Web UI 里的 ApplicationMaster 链接
本地调试时如果用 spark.master=local[*] 却看不到 UI，检查是否在 SparkContext 构建前就调用了 sc.stop() 或异常退出

metrics.properties 配置不生效

想把 JVM GC、executor 内存、shuffle 指标推到 Graphite 或 Prometheus，改了 $SPARK_HOME/conf/metrics.properties 却没数据——配置文件路径、格式、sink 类名三者错一个就静默失败。

配置文件必须叫 metrics.properties，且放在 SPARK_HOME/conf/ 下；若用 --files 提交，需额外通过 --conf spark.metrics.conf=metrics.properties 指定路径
每行只能有一个 key-value，不能有空格或注释符号 # 在中间；比如 sink.graphite.class=org.apache.spark.metrics.sink.GraphiteSink 少个点就加载失败
Graphite sink 需要 graphite.host 和 graphite.port，但默认不带 spark-metrics_2.12 依赖，YARN 模式下得用 --jars 补上
开启 source.jvm 才能看到 GC/Heap，否则只有 Spark 自身的 executor/shuffle 指标

如何获取 executor 级别的 shuffle write/read 量

业务慢了，想确认是不是 shuffle 数据膨胀导致磁盘/网络瓶颈，但 Spark UI 的 Summary 只给总和，看不到每个 executor 的明细。

Python快速入门

快速学习python书第二版是一本简洁清晰介绍python3的书籍，目标是新学习python 的程序员。这本更新版本囊括了所有python3版本的变化，即python从早期版本到新版本的特性变化本书一开始用基础但是很有用的程序来传授给读者关于python的核心特性，包括语法，控制流程和数据结构。然后本书使用大型的应用程序包括代码管理，面向对象编程，web开发和转换老版本的python程序到新的版本等等。忠实于作者的经验十足的开发者的观众，作者仔细检查普通程序特点，同时增加了更多细节关于这些python

下载

UI 的 Executors 标签页里，Shuffle Read/Write Metrics 列默认不显示，要手动勾选右上角的「Show additional metrics」
这些字段本质来自 ExecutorMetricsSource，底层对应 ShuffleReadMetrics 和 ShuffleWriteMetrics 对象，只在 task 完成后上报，running 中的 task 不可见
若用 Structured Streaming，StreamingQueryListener 拿不到 shuffle 细节，得靠 StreamingQueryProgress 的 durationMs 和 stateOperators 间接推测
注意单位：UI 显示的是 bytes，不是 records；Shuffle Write Bytes Written 包含压缩前原始大小，和 spark.sql.adaptive.enabled 开启后的动态调整无关

自定义指标上报到 Prometheus 的最小可行方案

不想搭 Graphite，只想用 Prometheus 抓 Spark 的自定义业务指标（比如某个 UDF 调用耗时），又不想引入 micrometer 全套生态。

立即学习“Python免费学习笔记（深入）”；

Spark 3.0+ 原生支持 Prometheus sink，配置项是 sink.prometheus.class=org.apache.spark.metrics.sink.PrometheusSink
必须显式指定 prometheus.port（如 9091），且该端口不能被占用；Prometheus 抓取路径固定为 /metrics/executors/prometheus
自定义指标要注册到 MetricRegistry，例如：sc.listenerBus.metricsSystem.registerSource(new MyCustomSource())，其中 MyCustomSource 实现 MetricSource
别漏掉 spark.metrics.namespace，否则所有指标都带 app 前缀，和你的 job 名不一致，查起来费劲

真正麻烦的是指标生命周期：driver 重启后 registry 清空，executor 挂掉时上报中断，这些边界情况比配置本身更常出问题。

Python 正则匹配中的贪婪与非贪婪陷阱

Python task group 在异步任务编排

Python 安全测试的 OWASP ZAP 集成

Python 监控系统的 Grafana + Prometheus 搭建

Python 异步上下文管理器的使用场景

相关标签:

python sql yarn jvm class Namespace 对象 spark apache http ui prometheus

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 macOS（M1/M2）上正确使用 MPS 后端训练 YOLOv8 下一篇：Python 抽象基类（ABC）与协议（Protocols）：接口设计的边界

作者最新文章

发票抽奖要满足什么条件才能抽发票抽奖是真的吗怎么参与

2026-02-13 11:09

发票抽奖没有发票代码怎么办发票抽奖怎么参加

2026-02-13 11:43

发票抽奖在哪查询发票抽奖查询官网入口网页

2026-02-13 11:45

两新补贴政策怎么领取？两新补贴攻略指南【教程】

2026-02-13 11:46

住房个税退税不同城可以退吗换购住房个税退税全指南(2026最新版

2026-02-13 11:49

IQOO手机各个型号参数一览表 IQOO全系列型号参数汇总

2026-02-13 12:04

崩坏:星穹铁道4.0最新兑换码星铁4.0免费兑换码活动入口

2026-02-13 12:05

终末地影拓丰碑攻略平民影拓丰碑全满星教程

2026-02-13 12:13

崩坏:星穹铁道4.0卡池抽取建议星铁4.0角色强度榜

2026-02-13 12:13

《明日方舟终末地》影拓丰碑第一期配队打法攻略【平民】

2026-02-13 12:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

963

2023.10.12