如何在 Polars 中正确使用 shrink_to_fit() 优化内存占用

碧海醫心

发布时间：2026-02-15 17:37:01

924人浏览过

来源于php中文网

原创

如何在 Polars 中正确使用 shrink_to_fit() 优化内存占用

shrink_to_fit() 是 Polars DataFrame 的内存优化方法，用于释放内部缓冲区的冗余空间；调用后需重新赋值（df = df.shrink_to_fit()），并通过 estimated_size() 对比前后内存变化来验证效果。

`shrink_to_fit()` 是 polars dataframe 的内存优化方法，用于释放内部缓冲区的冗余空间；调用后需重新赋值（`df = df.shrink_to_fit()`），并通过 `estimated_size()` 对比前后内存变化来验证效果。

在 Polars 中，shrink_to_fit() 是一个轻量但实用的内存管理工具。它不改变数据内容或结构，而是主动收缩 DataFrame 各列底层数组（如 ChunkedArray）所持有的额外容量（capacity），将分配的内存尽可能贴近实际数据所需大小。这种机制类似于 Rust 的 Vec::shrink_to_fit 或 C++ 的 std::vector::shrink_to_fit——本质是触发底层 Arrow 数组的内存重分配，丢弃未使用的预留空间。

✅ 正确用法如下：

import polars as pl

# 构造一个可能产生冗余内存的 DataFrame（例如通过多次 append、filter 或 slice）
df = pl.DataFrame({"x": range(100_000)}).select(pl.all().sample(frac=0.5, seed=42))
print("优化前内存估算:", df.estimated_size())  # 可能偏高（因采样操作引入中间缓冲）

df = df.shrink_to_fit()  # ✅ 关键：必须重新赋值！该方法返回新 DataFrame，非原地修改
print("优化后内存估算:", df.estimated_size())

⚠️ 重要注意事项：

极速网店系统 2008 Beta

极速网店升级内容：1.网店系统升级到Net2.0框架2.网店系统架构升级,使系统速度提升30%3.修正购物车下一步容易出错的问题4.修正会员删除的Bug5.修正广告时间不能选择的问题6.修正程序的兼容问题2008版升级内容如下：1、修正打SP2后用户登陆时出错的问题；2、修正用户列表错误的问题；3、修正程序的兼容性问题；4、修正用户Cookie加密码乱码的问题5、修正程序中存在的小BUG；6、优化

下载

shrink_to_fit() 不就地修改原 DataFrame，必须显式赋值（df = df.shrink_to_fit()），否则无效；
内存节省幅度高度依赖 DataFrame 的历史操作：频繁切片（.slice()）、过滤（.filter()）、拼接（.vstack()）或从大数组中提取子集时，Arrow 列常保留原始分配容量，此时 shrink_to_fit() 效果显著；而直接从 Python list 或小文件读取的 DataFrame，通常已无冗余，收益甚微；
estimated_size() 返回的是近似字节数（基于当前 chunk 结构估算），是观测优化效果的唯一可靠指标——不要依赖 sys.getsizeof()，因其无法反映 Arrow 内存布局的真实开销；
该操作为 O(1) 时间复杂度（仅调整元数据与 realloc 指针），几乎无计算开销，适合在 ETL 流程末尾或内存敏感场景（如长时间运行服务）中主动调用。

? 最佳实践建议：

在完成所有变形操作（如 filter, select, join）后，若后续仅作只读分析或导出，可调用一次 shrink_to_fit()；
避免在循环中反复调用（无意义且增加小对象分配）；
结合 df.n_chunks() 观察分块状态：若某列 n_chunks() > 1，shrink_to_fit() 还会尝试合并碎片化 chunk（需注意这可能引发一次内存拷贝）。

总之，shrink_to_fit() 是 Polars 提供的“内存整理”开关——简单、安全、低开销，虽非银弹，但在大数据管道中恰当地使用，可有效降低峰值内存压力，提升资源利用率。

Python databases 库的 async SQL 抽象

Python 批量任务拆分的合理粒度

Python Flag 枚举在权限系统中的应用

Python 内核态 uprobe 对 Python 函数的挂载

Python hudi 的增量处理实践

相关标签:

内存占用 rust select Filter 循环指针切片对象 etl

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python dataclass 中默认值与默认工厂的区别下一篇：暂无

作者最新文章

PHP 中基于 SKU 键值高效比对两个 JSON 数组的完整教程

2026-02-14 09:35

合作在线步行聊天游戏《Big Walk》发表

2026-02-14 09:49

如何在 Next.js 中安全地条件化加载邀请令牌并延迟渲染注册表单

2026-02-14 09:51

Logback Appender 中的 ThreadLocal 防护机制解析

2026-02-14 09:52

Spring Boot 定时任务驱动 JSP 页面自动刷新与数据更新教程

2026-02-14 09:53

如何在 ActiveMQ 中正确撤销客户端证书：信任库机制与证书链验证详解

2026-02-14 09:54

如何绕过 PyTube 的 YouTube 年龄限制门（Age Gate）

2026-02-14 09:59

Java 中 foreach 与 for 循环打印数组元素的差异解析

2026-02-14 10:05

Golang JSON 解析中数字类型的统一处理机制详解

2026-02-14 10:06

如何在实时 HTML 渲染中避免浏览器自动闭合标签导致的结构错乱

2026-02-14 10:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指对程序运行时内存的申请、使用和释放进行精细控制的机制，涵盖了栈、堆、静态区等不同区域，开发者需要通过new/delete、智能指针或内存池等方式管理动态内存，以避免内存泄漏、野指针等问题，确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权，带来灵活性，但也伴随高责任，是C++性能优化的关键。

2025.12.22