Pandas DataFrame条件筛选与数值替换教程

碧海醫心

发布时间：2025-11-03 10:36:56

825人浏览过

来源于php中文网

原创

Pandas DataFrame条件筛选与数值替换教程

本教程详细讲解如何在pandas dataframe中根据条件进行数值筛选和替换，避免布尔值输出。我们将探讨使用逻辑运算符 `&` 进行多条件筛选、利用 `|` 运算符替换不符合条件的数值为 `nan`，以及高效地使用 `clip()` 方法将数值限定在指定范围内。掌握这些技巧能帮助用户精确处理dataframe数据，确保输出为数值结果而非布尔 series。

在数据分析中，我们经常需要根据特定条件从Pandas DataFrame中筛选数据或替换数值。然而，初学者在使用多个条件时，可能会遇到返回布尔 Series 而非期望数值结果的问题。本教程将深入探讨如何正确执行这些操作，确保获得数值输出，并介绍多种实现方式以满足不同需求。

一、理解条件筛选中的布尔 Series 问题

当我们在Pandas中对某一列应用条件时，例如 df['column'] >= value，Pandas会返回一个布尔 Series，其中每个元素对应原 Series 中是否满足条件。当尝试组合多个条件时，如果不注意运算符优先级，就容易出错。

例如，以下代码尝试筛选出 parallax 列中值介于 300 和 900 之间的数据：

import pandas as pd
import numpy as np

# 示例数据
data = {
    'parallax': [567.17, 677.52, 422.74, 638.04, 9927.29, 1142.04, 218.38, 506.34, np.nan, np.nan]
}
df = pd.DataFrame(data)

# 错误尝试：
# new_df = df.loc[df['parallax'] >= 300, 'parallax'] <= 900
# 这种写法会先执行 df.loc[df['parallax'] >= 300, 'parallax']，
# 得到一个 Series，然后尝试将这个 Series 与 <= 900 进行比较，
# 导致语法错误或非预期结果。

正确的做法是使用逻辑运算符 &（按位与）来组合条件，并且必须用括号将每个条件表达式括起来，以确保正确的运算优先级。

二、正确地进行条件筛选

要从DataFrame中筛选出满足多个条件的数据行，应使用 & 运算符连接各个布尔条件，并用括号明确优先级。

# 正确的条件筛选
filtered_df = df[(df['parallax'] >= 300) & (df['parallax'] <= 900)]
print("筛选后的DataFrame (300 <= parallax <= 900):")
print(filtered_df)

解释：

df['parallax'] >= 300 生成一个布尔 Series。
df['parallax'] <= 900 也生成一个布尔 Series。
(df['parallax'] >= 300) & (df['parallax'] <= 900) 使用 & 运算符对这两个布尔 Series 进行逐元素逻辑与操作，生成一个新的布尔 Series，只有当两个条件都为 True 时，结果才为 True。
最后，将这个新的布尔 Series 作为索引传递给 df，Pandas 会返回所有对应布尔值为 True 的行。

三、根据条件替换数值

如果目标不是筛选数据，而是替换DataFrame中不符合条件的数值（例如，替换为 NaN 或其他特定值），则需要不同的方法。

‎ Gemini Storybook

Google Gemini推出的AI绘本生成工具

下载

1. 替换不符合条件的数值为 NaN

我们可以识别出所有不符合条件的行（即 parallax 小于 300 或大于 900 的行），然后将这些位置的数值替换为 np.nan。

# 复制原始DataFrame，避免修改原数据
df_replaced_nan = df.copy()

# 识别不符合条件的行：使用 | (按位或) 运算符
condition_to_replace = (df_replaced_nan['parallax'] < 300) | (df_replaced_nan['parallax'] > 900)

# 将不符合条件的数值替换为 NaN
df_replaced_nan.loc[condition_to_replace, 'parallax'] = np.nan
print("\n替换不符合条件数值为 NaN 的DataFrame:")
print(df_replaced_nan)

解释：

df.copy() 创建一个副本，以防止对原始DataFrame造成意外修改。
condition_to_replace 使用 | 运算符来组合条件，找出所有 parallax 值小于 300 或大于 900 的行。
df_replaced_nan.loc[condition_to_replace, 'parallax'] = np.nan 精确地定位到这些不符合条件的行，并将其 parallax 列的值设置为 np.nan。

2. 使用 clip() 方法限定数值范围

如果需求是将超出指定范围的数值“裁剪”到边界值，Pandas 的 clip() 方法是最高效的解决方案。clip() 可以将 Series 或 DataFrame 中的值限制在一个给定的 lower 和 upper 边界之间。

# 复制原始DataFrame
df_clipped = df.copy()

# 使用 clip() 方法将 parallax 列的值限定在 [300, 900] 范围内
df_clipped['parallax'].clip(lower=300, upper=900, inplace=True)
print("\n使用 clip() 方法限定数值范围的DataFrame:")
print(df_clipped)

解释：

df.copy() 同样是为了保护原始数据。
df_clipped['parallax'].clip(lower=300, upper=900, inplace=True) 会遍历 parallax 列：
- 如果值小于 300，则替换为 300。
- 如果值大于 900，则替换为 900。
- 如果值在 300 和 900 之间，则保持不变。
inplace=True 参数表示直接修改原 Series，而不是返回一个新的 Series。

四、总结与注意事项

运算符优先级： 在Pandas中组合多个条件时，务必使用括号 () 包裹每个独立的条件表达式，以确保 & (逻辑与) 和 | (逻辑或) 运算符的正确执行顺序。
选择与替换：
- 如果目的是获取满足条件的数据子集，请使用 df[条件] 或 df.loc[条件]。
- 如果目的是修改原DataFrame中不符合条件的值，可以结合布尔索引和赋值操作，或使用 clip() 等专门方法。
df.copy() 的使用： 当你打算修改一个从现有DataFrame派生出的子集时，为了避免 SettingWithCopyWarning 和确保修改只作用于副本而不影响原始数据，强烈建议先使用 df.copy() 创建一个明确的副本。
loc 与 iloc： loc 主要用于基于标签的索引，而 iloc 用于基于整数位置的索引。在进行条件筛选和替换时，通常使用 loc 结合布尔 Series 来定位数据。

通过掌握上述方法，您可以更加灵活和准确地在Pandas DataFrame中进行条件筛选和数值替换，从而高效地完成数据清洗和预处理任务。

如何在Pandas中精准查找并统一替换含特定子串的字符串值

如何在Pandas中精准匹配并统一替换含特定子串的分类字段

如何在Pandas中批量查找并统一替换包含特定子字符串的分类字段

Python数据清洗流程_数据预处理方法

Python 爬虫数据清洗技巧总结

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

Go语言中的运算符有哪些

Go语言中的运算符有：1、加法运算符；2、减法运算符；3、乘法运算符；4、除法运算符；5、取余运算符；6、比较运算符；7、位运算符；8、按位与运算符；9、按位或运算符；10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

241

2024.02.23

php三元运算符用法

本专题整合了php三元运算符相关教程，阅读专题下面的文章了解更多详细内容。

170

2025.10.17

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板