0

0

Spark 并行读取但写入分区时仅使用单核的解决方案

花韻仙語

花韻仙語

发布时间:2025-08-08 16:12:36

|

366人浏览过

|

来源于php中文网

原创

spark 并行读取但写入分区时仅使用单核的解决方案

本文针对 Spark 在本地模式下读取 CSV 文件并写入 Iceberg 表时,读取阶段能够并行执行,而写入阶段却只能单核运行的问题,提供了详细的解决方案。通过调整 Spark 配置,例如禁用动态资源分配、显式设置 executor 数量和资源,以及优化 AWS CLI 配置,可以有效提升写入性能,实现并行写入。

在使用 Spark 处理大规模数据时,我们经常会遇到读取速度快,但写入速度慢的问题。尤其是在本地模式下,虽然 Spark 能够利用多核并行读取数据,但在写入分区时,却可能退化为单核运行,导致整体性能瓶颈。本文将针对这一问题,提供详细的解决方案和优化建议。

理解问题根源

在本地模式下,Spark 默认只有一个 Executor,即本地 JVM 实例。虽然读取操作可以利用多线程并行执行,但写入操作往往受限于单个 Executor 的资源限制。动态资源分配(spark.dynamicAllocation.enabled)在这种情况下可能不会起到预期效果,甚至可能将所有任务分配给单个 Executor。

解决方案:显式配置 Executor 资源

避免依赖动态资源分配,而是显式地配置 Executor 的数量和资源,可以有效解决单核写入的问题。

  1. 禁用动态资源分配:

    移除 spark.dynamicAllocation.enabled = true 的配置。

  2. 显式设置 Executor 数量和资源:

    在提交 Spark 应用时,通过命令行参数设置 Executor 的数量、内存和 CPU 核心数。例如:

    spark-submit \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 4 \
    --executor-memory 1G \
    --executor-cores 1 \
    --driver-memory 2G \
    --driver-cores 1 \
    ...
    • --num-executors: 设置 Executor 的数量。
    • --executor-memory: 设置每个 Executor 的内存大小。
    • --executor-cores: 设置每个 Executor 的 CPU 核心数。

    注意:需要根据集群的资源情况和数据规模,合理调整这些参数。可以通过 Yarn Resource Manager UI 监控 CPU 核心的利用率,进行微调。

  3. 监控 Spark History Server UI:

    在写入操作开始时,通过 Spark History Server UI 检查 Executor 的数量和 Task 的数量,确保任务能够均匀分配到各个 Executor 上。

    SumiNote
    SumiNote

    一款服务留学生的AI学习神器

    下载

优化 AWS CLI 配置

如果数据写入目标是 AWS S3,还可以通过优化 AWS CLI 的配置,提升写入性能。

  1. 增加并行度:

    通过设置 max_concurrent_requests 和 max_queue_size 参数,增加并发请求的数量和任务队列的大小。

    [default]
    s3 =
        max_concurrent_requests = 20
        max_queue_size = 1000
  2. 调整分片上传参数:

    通过设置 multipart_threshold 和 multipart_chunksize 参数,优化分片上传的策略。

    [default]
    s3 =
        multipart_threshold = 64MB
        multipart_chunksize = 16MB
  3. 限制带宽(可选):

    如果需要限制上传带宽,可以通过设置 max_bandwidth 参数实现。

    [default]
    s3 =
        max_bandwidth = 100MB/s

    注意:这些参数需要在 AWS CLI 的配置文件中进行设置,通常位于 ~/.aws/config。

总结

通过显式配置 Executor 资源和优化 AWS CLI 配置,可以有效解决 Spark 在本地模式下写入分区时仅使用单核的问题,显著提升写入性能。在实际应用中,需要根据具体的硬件环境和数据规模,进行参数调优,以达到最佳效果。此外,监控 Spark History Server UI 和 Yarn Resource Manager UI,可以帮助我们更好地了解任务的执行情况,并及时发现潜在的问题。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
resource是什么文件
resource是什么文件

Resource文件是一种特殊类型的文件,它通常用于存储应用程序或操作系统中的各种资源信息。它们在应用程序开发中起着关键作用,并在跨平台开发和国际化方面提供支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

158

2023.12.20

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

503

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

186

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

15

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

15

2026.01.21

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

980

2023.11.02

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

18

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

12

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14.2万人学习

C# 教程
C# 教程

共94课时 | 7.9万人学习

C++教程
C++教程

共115课时 | 14.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号