如何在 Polars 中正确使用 shrink_to_fit() 释放内存

霞舞

发布时间：2026-02-15 17:31:01

363人浏览过

来源于php中文网

原创

如何在 Polars 中正确使用 shrink_to_fit() 释放内存

shrink_to_fit() 是 Polars DataFrame 的内存优化方法，用于释放内部缓冲区中未使用的额外内存；调用后需重新赋值（df = df.shrink_to_fit()），并通过 estimated_size() 对比前后内存占用以验证效果。

`shrink_to_fit()` 是 polars dataframe 的内存优化方法，用于释放内部缓冲区中未使用的额外内存；调用后需重新赋值（`df = df.shrink_to_fit()`），并通过 `estimated_size()` 对比前后内存占用以验证效果。

在 Polars 中，shrink_to_fit() 是一个轻量但实用的内存管理工具。它不会改变数据内容或结构，而是主动回收 DataFrame 各列底层数组（如 Arrow 数组）中因预分配、切片、过滤等操作遗留的冗余容量（capacity），从而降低实际内存占用。该方法不就地修改 DataFrame，因此必须显式赋值：

df = df.shrink_to_fit()

为直观评估优化效果，推荐结合 estimated_size() 方法进行前后对比：

PpcyAI

泡泡次元AI-游戏美术AI创作平台，低门槛上手，高度可控，让你的创意秒速落地

下载

import polars as pl

# 构造一个可能产生冗余容量的 DataFrame（例如多次切片后）
df = pl.DataFrame({"x": range(100_000)}).lazy().filter(pl.col("x") < 50_000).collect()
print(f"优化前内存估算: {df.estimated_size()} bytes")

df = df.shrink_to_fit()  # 关键：必须重新赋值
print(f"优化后内存估算: {df.estimated_size()} bytes")

⚠️ 注意事项：

效果非恒定：shrink_to_fit() 的收益高度依赖 DataFrame 的创建与处理历史。例如，由 read_parquet() 直接加载的数据通常已紧凑，而经多次 filter、slice 或 concat 操作后的 DataFrame 更可能受益；
无副作用但不可逆：该操作仅释放冗余空间，不丢失数据；但一旦收缩，后续追加行（如 vstack）可能触发新的内存重分配；
不替代真正的大数据策略：它适用于“微调”内存，而非解决根本性内存瓶颈——若频繁面临 OOM，应优先考虑流式处理（LazyFrame）、分块读取或更高效的数据类型（如 pl.Int32 替代 pl.Int64）。

总结来说，shrink_to_fit() 是 Polars 提供的“内存整理”快捷指令，适合在关键内存敏感节点（如 ETL 中间态、函数返回前）主动调用，配合 estimated_size() 进行量化验证，是专业 Polars 工作流中值得纳入的实践习惯。

相关标签:

数据类型 Filter 切片 etl

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python chain 在数据拼接中的正确使用方式下一篇：Python RLock 与 Lock 的使用区别

作者最新文章

React Router v6 路由配置与导航修复指南

2026-02-15 14:35

HTML 表单输入字段的正则模式验证：限制首字符为 M 或 S

2026-02-15 14:46

Bloober Team周年特别发布会正式揭晓《层层恐惧3》

2026-02-15 14:46