0

0

Python dask 的并行数据处理实践

冷炫風刃

冷炫風刃

发布时间:2026-02-13 22:31:54

|

715人浏览过

|

来源于php中文网

原创

dask.delayed 更适合数据流水线因其构建可调度的dag,支持中间复用、条件分支与失败重算;而concurrent.futures仅适用于独立函数调用。

python dask 的并行数据处理实践

为什么 dask.delayed 比直接用 concurrent.futures 更适合数据流水线?

dask.delayed 不是简单地把函数扔进线程池,而是构建一个延迟执行的有向无环图(DAG),后续能做任务调度、重试、内存感知和跨节点分发。你写的是“做什么”,不是“怎么做”——这在处理多阶段 ETL 时特别关键。

  • 如果你只是跑几个独立函数,concurrent.futures.ThreadPoolExecutor 更轻量、启动更快
  • 但只要涉及中间结果复用(比如 A → B → C,同时 B → D)、条件分支或部分失败重算,dask.delayed 的图能力立刻显出价值
  • 注意:所有被 @dask.delayed 装饰的函数,返回值会自动包装成 Delayed 对象;直接 print 或取值会触发计算,别在定义阶段就调 .compute()
@delayed
def load_csv(path):
    return pd.read_csv(path)
<p>@delayed<br />
def clean(df):
return df.dropna()</p><h1>这里没计算,只建图</h1><p>cleaned = clean(load_csv("data.csv"))</p>

dask.dataframe 读 CSV 卡住或内存暴涨?检查这三件事

dask.dataframe.read_csv 默认按行数切分块(blocksize),但实际切分依赖文件是否含换行符、压缩格式、是否有 header 行——这些都会让块大小失控,导致某一块巨长、其他块为空,甚至卡死在元数据探测阶段。

  • 确保文件是纯文本、LF 换行、无嵌入换行符的 CSV;如果用 Excel 导出,先用 dos2unix 或 Python 清洗一遍
  • 显式指定 blocksize="64MB"(别用字节硬算,用字符串如 "128MB"),并配合 sample=10000 控制 schema 推断采样行数
  • 遇到 OSError: [Errno 22] Invalid argument,大概率是 Windows 下路径含中文或 UNC 路径未转义,改用 r"\server\path" 或正斜杠

本地运行 dask.distributed.Client 反而比单线程慢?常见配置误用

开一个本地 Client(n_workers=4, threads_per_worker=1) 听起来合理,但默认会启用 dashboard(Web UI)、心跳检测、序列化/反序列化日志——对小数据集(

我要服装批发网
我要服装批发网

由逍遥网店系统修改而成,修改内容如下:前台商品可以看大图功能后台商品在线添加编辑功能 (允许UBB)破解了访问统计系统增加整合了更加强大的第三方统计系统 (IT学习者v1.6)并且更新了10月份的IP数据库。修正了后台会员订单折扣金额处理错误BUG去掉了会员折扣价这个功能,使用市场价,批发价。这样符合实际的模式,批发价非会员不可看修正了在线编辑无法使用 “代码&rdqu

下载

立即学习Python免费学习笔记(深入)”;

  • 小规模调试优先用 scheduler="threads"scheduler="synchronous",完全绕过调度器
  • 必须用 Client 时,关掉不需要的功能:dashboard_address=Nonesilence_logs=logging.ERROR
  • Client 启动后默认连接 localhost:8786,如果端口被占,会静默 fallback 到随机端口——查 client.dashboard_link 才知道它到底在哪,别猜

dask.array 处理图像堆栈却报 Array chunk size too large

dask.array 把大数组切块(chunks)来并行,但图像数据维度固定(如 (1000, 1024, 1024)),若 chunk 设置不当,容易生成单块超 1GB 的内存块,触发 ValueError

  • 别用 chunks=-1chunks=(1000, "auto", "auto")——"auto" 在高维下可能把第一维全塞进一块
  • 图像堆栈推荐按切片维度拆:如 chunks=(1, 512, 512),确保每块最多一张图的一部分
  • da.from_array(arr, chunks=(1, 512, 512)).persist() 替代直接计算,避免重复加载原始数据

事情说清了就结束。真正卡住的地方,往往不在代码怎么写,而在你默认相信的“自动行为”——比如 dask 怎么猜 CSV 分隔符、怎么选 chunk 大小、怎么处理缺失值传播——这些细节不盯住,图建得再漂亮也跑不起来。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

11

2026.02.03

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.10.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

530

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

214

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1552

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

640

2023.11.24

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

23

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号