0

0

使用 Polars 条件替换 DataFrame 列中的 NaN 值

心靈之曲

心靈之曲

发布时间:2025-11-02 11:25:04

|

652人浏览过

|

来源于php中文网

原创

使用 polars 条件替换 dataframe 列中的 nan 值

本教程详细介绍了如何在 Polars DataFrame 中,根据某一列的 NaN (Not a Number) 值条件性地替换另一列的值。文章从 Pandas 的常见做法入手,逐步过渡到 Polars 的表达式系统,重点讲解了 `pl.when().then().otherwise().alias()` 链式方法,并提供了清晰的代码示例和专业解释,帮助用户高效地进行数据清洗和转换。

在数据分析和处理中,我们经常需要对缺失值(NaN 或 Null)进行处理。一个常见的场景是,当某一列(例如 col_x)中存在 NaN 值时,我们希望用同一 DataFrame 中另一列(例如 col_z)的值来填充或替换目标列(例如 col_y)中对应位置的值。本教程将深入探讨如何在高性能的 Polars 库中实现这一操作,并与 Pandas 的实现方式进行对比。

Pandas 中的条件替换方法

在 Pandas 中,实现这种条件替换通常有多种方式,其中一种是使用 .loc 结合布尔索引:

import pandas as pd
import numpy as np

# 示例 Pandas DataFrame
data = {'col_x': [1.0, np.nan, 3.0, np.nan, 5.0],
        'col_y': [10, 20, 30, 40, 50],
        'col_z': [100, 200, 300, 400, 500]}
df_pandas = pd.DataFrame(data)

print("原始 Pandas DataFrame:")
print(df_pandas)

# 条件替换操作
df_pandas.loc[df_pandas['col_x'].isna(), 'col_y'] = df_pandas['col_z']

print("\n替换后的 Pandas DataFrame:")
print(df_pandas)

另一种更简洁的 Pandas 方法是使用 np.where:

import pandas as pd
import numpy as np

# 示例 Pandas DataFrame
data = {'col_x': [1.0, np.nan, 3.0, np.nan, 5.0],
        'col_y': [10, 20, 30, 40, 50],
        'col_z': [100, 200, 300, 400, 500]}
df_pandas_np = pd.DataFrame(data)

# 使用 np.where 进行条件替换
df_pandas_np["col_y"] = np.where(pd.isnull(df_pandas_np['col_x']), df_pandas_np['col_z'], df_pandas_np['col_y'])

print("\n使用 np.where 替换后的 Pandas DataFrame:")
print(df_pandas_np)

这两种方法在 Pandas 中都非常有效,能够根据 col_x 是否为 NaN 来决定 col_y 的值是保持原样还是替换为 col_z 的值。

Calliper 文档对比神器
Calliper 文档对比神器

文档内容对比神器

下载

Polars 中的条件替换方法

Polars 作为新一代高性能数据处理库,其设计哲学是基于表达式(expressions)而非直接的元素级操作。因此,将 Pandas 的思维模式直接移植到 Polars 中可能不会立即奏效。在 Polars 中,实现上述条件替换任务的最佳实践是使用 pl.when().then().otherwise().alias() 链式表达式。

核心概念:pl.when().then().otherwise()

Polars 的 when().then().otherwise() 结构提供了一种声明式的方式来表达条件逻辑。它的工作方式类似于 SQL 中的 CASE WHEN 语句或 Python 中的三元运算符。

  • pl.when(condition): 定义一个条件表达式。当这个条件为真时,将执行 .then() 后面的表达式。
  • .then(true_expression): 当 when 中的条件为真时,所采用的值或表达式。
  • .otherwise(false_expression): 当 when 中的条件为假时,所采用的值或表达式。
  • .alias(new_column_name): 将整个条件表达式的结果命名为一个新的列,通常用于覆盖现有列。

示例代码

让我们在 Polars 中实现相同的条件替换逻辑:

import polars as pl
import numpy as np

# 示例 Polars DataFrame
data = {'col_x': [1.0, np.nan, 3.0, np.nan, 5.0],
        'col_y': [10, 20, 30, 40, 50],
        'col_z': [100, 200, 300, 400, 500]}
df_polars = pl.DataFrame(data)

print("原始 Polars DataFrame:")
print(df_polars)

# 条件替换操作
df_polars = (
    df_polars
    .with_columns(
        pl.when(pl.col('col_x').is_nan())  # 当 'col_x' 中的值为 NaN 时
        .then(pl.col('col_z'))             # 则使用 'col_z' 中的对应值
        .otherwise(pl.col('col_y'))        # 否则保持 'col_y' 中的原始值
        .alias('col_y')                    # 将此表达式的结果命名为 'col_y',以覆盖原列
    )
)

print("\n替换后的 Polars DataFrame:")
print(df_polars)

代码详解

  1. df_polars.with_columns(...): 这是 Polars 中添加或修改列的标准方法。它接受一个或多个表达式,并返回一个新的 DataFrame。
  2. pl.when(pl.col('col_x').is_nan()):
    • pl.col('col_x'): 引用 DataFrame 中的 col_x 列。
    • .is_nan(): 这是一个 Polars 表达式方法,用于检查列中的每个元素是否为 NaN。它返回一个布尔序列,作为 when 的条件。
  3. .then(pl.col('col_z')): 如果 col_x 的对应值为 NaN,那么新 col_y 的值将取自 col_z 的对应值。
  4. .otherwise(pl.col('col_y')): 如果 col_x 的对应值不是 NaN,那么新 col_y 的值将保持为原 col_y 的对应值。
  5. .alias('col_y'): 这一步至关重要。when().then().otherwise() 表达式会生成一个新的系列(Series)。为了让这个新系列替换掉 DataFrame 中现有的 col_y 列,我们需要使用 .alias('col_y') 将其命名为 col_y。如果省略 .alias(),with_columns 将会创建一个名为 literal 或其他默认名称的新列。

注意事项与最佳实践

  • NaN 与 Null 的区别: 在 Polars 中,NaN 通常特指浮点数类型中的“非数字”值,而 null 是更通用的缺失值概念,可以应用于任何数据类型。对于浮点数,is_nan() 是正确的检查方法。如果你的列可能包含其他类型的 null 值(例如整数列中的 null),你可能需要使用 pl.col('your_column').is_null()。
  • 表达式驱动: Polars 的核心是其表达式系统。尽可能使用链式表达式进行数据转换,这使得 Polars 能够进行查询优化,并通常提供更好的性能。
  • 不可变性: Polars DataFrame 默认是不可变的。with_columns() 方法不会修改原始 DataFrame,而是返回一个包含更改的新 DataFrame。因此,需要将结果重新赋值给变量(例如 df_polars = df_polars.with_columns(...))。
  • 性能: 对于大型数据集,Polars 的表达式系统和并行处理能力通常比 Pandas 提供更高的性能。

总结

通过 pl.when().then().otherwise().alias() 结构,Polars 提供了一种强大而灵活的方式来执行条件逻辑,包括根据某一列的 NaN 值替换另一列的数据。这种声明式的方法不仅代码可读性强,而且与 Polars 的高性能计算引擎完美契合,是进行复杂数据转换时的首选模式。掌握这一模式,将极大地提升你在 Polars 中的数据处理效率。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

771

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

328

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

350

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1324

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

361

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

881

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

581

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

425

2024.04.29

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号