0

0

高效构建并流式写入 Polars DataFrame 的最佳实践

霞舞

霞舞

发布时间:2026-02-06 16:35:53

|

326人浏览过

|

来源于php中文网

原创

高效构建并流式写入 Polars DataFrame 的最佳实践

本文介绍如何在数据逐行生成场景下,以最高效率将结果写入 polars dataframe 并批量持久化到磁盘,重点推荐基于 `lazyframe` + `sink_csv` 的流式处理方案,并对比传统列表累积与逐行 vstack 的性能缺陷。

在实时数据采集、日志解析或流式 ETL 等场景中,常需从生成器(如 generation_mechanism())逐行获取原始数据,并通过 decompose(row) 提取结构化特征,最终写入磁盘(如 CSV)。此时若采用传统方式——如累积 Python 列表后构造 DataFrame每行新建 DataFrame 并 vstack 拼接——会显著降低性能:前者受 Python 列表动态扩容与内存拷贝拖累;后者因频繁创建小 DataFrame 及 vstack 的 O(n) 合并开销,在百万级数据下极易成为瓶颈。

最优解:使用 pl.LazyFrame + sink_csv 流式落盘
Polars 原生支持惰性计算与流式写入。只需将生成器直接传入 pl.LazyFrame,再调用 sink_csv 并指定 batch_size,即可实现零中间内存堆积、按批自动刷盘:

import polars as pl

def generation_mechanism():
    for x in range(1_000_000):
        yield (x, x + 1)

# 直接从生成器构建 LazyFrame(不触发计算)
lf = pl.LazyFrame(generation_mechanism(), schema=["feature_a", "feature_b"])

# 流式写入 CSV,每 100 行为一个批次(自动分块、内存友好)
lf.sink_csv("output.csv", batch_size=100)

该方案优势明显:

  • 零显式内存缓冲:无需维护 feature_a_list 等临时列表;
  • 无 DataFrame 构造开销:避免 pl.DataFrame(...) 频繁调用;
  • 自动批处理与磁盘 I/O 优化:batch_size 控制写入粒度,兼顾吞吐与延迟;
  • 天然支持流式计算链:可无缝接入 map_batches、filter、select 等惰性操作。

? 当 decompose() 逻辑较复杂时:结合 map_batches 向量化处理
若 decompose() 不是简单解包,而是含业务逻辑(如字符串解析、数值转换),应优先将其向量化(例如改用 map_elements + streamable=True),再嵌入 LazyFrame 流程:

def decompose(row):
    # 示例:对元组做自定义变换
    return row[0] * 2, row[1] ** 2

lf = (
    pl.LazyFrame({"raw": generation_mechanism()})
    .map_batches(
        lambda df: df.select(
            pl.col("raw").map_elements(
                decompose,
                return_dtype=pl.List(pl.Int64)  # 显式声明返回类型提升性能
            ).alias("features")
        ),
        streamable=True  # 关键!启用流式执行
    )
    .select(
        pl.col("features").list.to_struct(fields=["feature_a", "feature_b"])
    )
    .unnest("features")
)

lf.sink_csv("output.csv", batch_size=100)

⚠️ 注意事项与避坑指南

MonkeyCode
MonkeyCode

企业级AI开发平台,全新的AI编程体验,让你的研发团队效率Max

下载
  • ❌ 避免 vstack 循环:data = data.vstack(new_row_df) 时间复杂度为 O(n),n 行需 O(n²) 总耗时;
  • ❌ 谨慎使用 map_elements:若未设 return_dtype 或未启用 streamable=True,可能触发全量 materialization;
  • ✅ 优先向量化 decompose:尽量用 Polars 原生表达式(如 str.split(), dt.strftime())替代 Python 函数;
  • ✅ 小批量测试:首次使用 sink_csv 时建议先用 batch_size=10 验证输出格式与性能;
  • ? 替代格式:如需更高吞吐,可换用 sink_parquet()(列式存储,压缩率高,读写更快)。

综上,LazyFrame + sink_csv 是 Polars 生态中处理逐行生成数据的官方推荐范式——它将“生成→转换→落盘”抽象为声明式流水线,既保障性能,又保持代码简洁与可维护性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

402

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

213

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1512

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

633

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

758

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

710

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

179

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

84

2025.08.07

1688阿里巴巴货源平台入口与批发采购指南
1688阿里巴巴货源平台入口与批发采购指南

本专题整理了1688阿里巴巴批发进货平台的最新入口地址与在线采购指南,帮助用户快速找到官方网站入口,了解如何进行批发采购、货源选择以及厂家直销等功能,提升采购效率与平台使用体验。

60

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号