Spark 并行读取但写入分区时仅使用单核的优化方法

心靈之曲

发布时间：2025-08-08 16:16:13

866人浏览过

来源于php中文网

原创

spark 并行读取但写入分区时仅使用单核的优化方法

本文旨在解决 Spark 在本地模式下读取 CSV 文件并写入 Iceberg 表时，读取阶段能够充分利用多核并行处理，而写入阶段却只能单核运行的问题。通过调整 Spark 配置、优化 AWS CLI 设置，以及理解 Spark 任务分配机制，帮助读者充分利用计算资源，提升 Spark 写入性能。

在使用 Spark 处理大数据集时，一个常见的瓶颈是写入数据的速度。尤其是在将数据写入到云存储（如 S3）时，如果写入过程没有充分利用可用的计算资源，会导致整体作业的执行时间显著增加。本文将深入探讨如何优化 Spark 写入操作，使其能够并行运行，从而提高写入速度。

理解问题：单核写入的原因

在本地模式下，即使指定了 local[*] 作为 master，Spark 仍然可能只使用一个核心进行写入操作。这通常是由于以下几个原因：

默认资源分配： Spark 的默认资源分配策略可能将所有任务分配给单个 executor，尤其是在本地模式下。
动态资源分配的误用： 开启 spark.dynamicAllocation.enabled 并不一定能解决问题，因为其资源分配依赖于默认的资源计算器，可能无法充分利用所有可用核心。
S3 写入限制： 默认的 AWS CLI 配置可能限制了并发请求的数量，从而导致写入速度受限。

解决方案：优化 Spark 配置

要解决单核写入的问题，需要调整 Spark 的配置，以确保任务能够并行执行。以下是一些建议的配置：

显式设置 Executor 数量和资源： 不要依赖动态资源分配，而是显式设置 executor 的数量、内存和核心数。
```
--master yarn \
--deploy-mode cluster \
--num-executors 4 \
--executor-memory 1G \
--executor-cores 1 \
--driver-memory 2G \
--driver-cores 1
```
- --num-executors: 指定要启动的 executor 数量。
- --executor-memory: 指定每个 executor 的内存大小。
- --executor-cores: 指定每个 executor 的核心数。
根据你的集群资源和数据规模，调整这些参数。
检查 Spark UI： 在写入操作开始时，通过 Spark History Server UI 检查 executor 和任务的数量，确保任务已正确分配到多个 executor。

优化 AWS CLI 配置

Beago

零一万物推出的AI搜索工具

下载

除了 Spark 配置，AWS CLI 的配置也会影响写入性能。可以通过增加并发请求的数量来提高写入速度。

修改 AWS CLI 配置文件： 修改 ~/.aws/config 文件，增加以下配置：
```
[default]
s3 =
    max_concurrent_requests = 20
    max_queue_size = 1000
    multipart_threshold = 64M
    multipart_chunksize = 16M
    max_bandwidth = 100MB/s
```
- max_concurrent_requests: 允许的最大并发请求数。
- max_queue_size: 任务队列的最大长度。
- multipart_threshold: 启用分段上传的最小文件大小。
- multipart_chunksize: 分段上传时每个分段的大小。
- max_bandwidth: 限制上传和下载的最大带宽。
根据你的网络环境和 S3 存储桶的性能，调整这些参数。

代码示例

以下是一个 Spark 写入 Iceberg 表的示例代码，包含了上述优化建议：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("IcebergWrite") \
    .master("yarn") \
    .config("spark.executor.memory", "1G") \
    .config("spark.executor.cores", "1") \
    .config("spark.num.executors", "4") \
    .config("spark.sql.catalog.my_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO") \
    .config("spark.hadoop.fs.s3a.fast.upload", "true") \
    .getOrCreate()

# 读取 CSV 文件
df = spark.read.csv("s3://my_bucket/my_data.csv", header=True, inferSchema=True)

# 数据转换和分区
df = df.withColumn("partition_key", df["some_column"] % 10)  # 示例分区键

# 写入 Iceberg 表
df.repartition("partition_key") \
    .write \
    .format("iceberg") \
    .mode("append") \
    .partitionBy(["partition_key"]) \
    .saveAsTable("glue_catalog.my_db.data")

# 停止 SparkSession
spark.stop()

注意事项

资源分配： 确保集群有足够的资源来满足你配置的 executor 数量和资源需求。
网络带宽： 如果网络带宽是瓶颈，即使增加了并发请求的数量，写入速度也可能不会显著提高。
S3 存储桶性能： S3 存储桶的性能也会影响写入速度。如果存储桶的写入能力有限，那么优化 Spark 和 AWS CLI 配置的效果也会受到限制。
数据倾斜： 确保分区键能够均匀地分配数据，避免数据倾斜导致某些 executor 负载过重。

总结

通过显式设置 Spark executor 的数量和资源、优化 AWS CLI 配置，以及理解 Spark 任务分配机制，可以有效地解决 Spark 写入分区时仅使用单核的问题，从而提高写入速度，缩短整体作业的执行时间。在实际应用中，需要根据具体情况调整配置参数，并监控 Spark UI 和 S3 存储桶的性能，以达到最佳的写入性能。

如何使用 Nginx 搭建反向代理以集成机器学习 Web 应用防火墙

如何使用 Nginx 搭建反向代理以集成机器学习驱动的 Web 应用防火墙

如何安全地在 Apache 环境中调用 Python 脚本而不暴露源码

如何安全地在 Apache 环境中执行 Python 脚本而不暴露源码

在Apache Airflow中实现基于日期的条件性DAG执行

相关专题

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1010

2023.11.02

vscode 格式化

本专题整合了vscode格式化相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.18

vscode设置中文教程

本专题整合了vscode设置中文相关内容，阅读专题下面的文章了解更多详细教程。

2026.03.18

vscode更新教程合集

本专题整合了vscode更新相关内容，阅读专题下面的文章了解更多详细教程。

2026.03.18

Gemini网页版零基础入门：5分钟上手Gemini聊天指南

本专题专为零基础用户打造，5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局，详解如何发起对话、优化提示词及利用多模态功能。通过实战案例，教你高效获取信息、创作内容与分析数据。无论学习还是工作，轻松开启AI辅助新时代，让Gemini成为你的得力智能助手。

2026.03.18

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18