Pandas数据框：基于多列条件动态创建新列的实用技巧

霞舞

发布时间：2025-12-07 21:34:01

893人浏览过

来源于php中文网

原创

pandas数据框：基于多列条件动态创建新列的实用技巧

本教程详细介绍了如何利用Pandas库的`filter`方法结合正则表达式，高效地根据DataFrame中指定范围列（并排除特定列）的数值条件来创建新的响应列。通过检查多列中是否存在大于零的值，动态地为新列赋值，从而实现数据清洗和特征工程中的灵活操作，提升代码的可维护性和可扩展性。

在数据分析和预处理阶段，我们经常需要根据DataFrame中多列的特定条件来生成新的特征列。一个常见的场景是，我们需要识别某个实体（如动物、用户等）是否“响应”了某个事件，而这个“响应”的判断依据是其在一系列相关事件列中是否存在至少一个有效的事件记录（例如，值大于0），同时可能需要排除某些特定的事件列。本教程将通过一个具体示例，演示如何使用Pandas的强大功能优雅地解决此类问题。

场景描述与挑战

假设我们有一个包含动物实验数据的DataFrame，其中记录了不同动物的ID、体重、项目信息以及在不同日期（events_d1, events_d2, events_d3, events_d4等）发生的事件数量。我们的目标是创建一个名为responder的新列，如果某只动物在events_d1、events_d2或events_d3中的任意一列（不包括events_d4）存在大于0的事件，则将其responder标记为'y'，否则标记为'n'。

这个任务的挑战在于：

动态列选择： 事件列可能有很多，我们希望通过模式匹配（如events_d*）来选择它们，而不是手动列出。
列排除： 在动态选择的基础上，需要排除特定的列（例如events_d4）。
行级条件判断： 需要对选定列的每一行进行判断，只要其中任何一列满足条件（值大于0），整行就符合条件。

解决方案步骤

Pandas提供了filter()方法结合正则表达式以及any()函数来高效地完成这些操作。

1. 导入必要的库并准备示例数据

首先，我们需要导入pandas和numpy库，并创建一个示例DataFrame来模拟我们的数据。

import pandas as pd
import numpy as np

# 示例DataFrame
data = {
    'Animal_ID': ['a1', 'a2', 'a3', 'a4'],
    'weight': [50, 52, 75, 53],
    'Project': ['p1', 'p2', 'p1', 'p2'],
    'Exp_type': ['Acute', 'chronic', 'Acute', 'chronic'],
    'researcher': ['alex', 'mat', 'alex', 'mat'],
    'events_d1': [0, 0, 1, 0],
    'events_d2': [0, 1, np.nan, np.nan], # 使用np.nan表示缺失值
    'events_d3': [0, 1, 2, np.nan],
    'events_d4': [4, 5, np.nan, 0]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

2. 动态选择目标列：使用 df.filter() 和正则表达式

df.filter() 方法允许我们根据列名或索引的模式来选择列。结合regex参数，我们可以使用正则表达式进行高级匹配。

魔法映像企业网站管理系统

技术上面应用了三层结构，AJAX框架，URL重写等基础的开发。并用了动软的代码生成器及数据访问类，加进了一些自己用到的小功能，算是整理了一些自己的操作类。系统设计上面说不出用什么模式，大体设计是后台分两级分类，设置好一级之后，再设置二级并选择栏目类型，如内容，列表，上传文件，新窗口等。这样就可以生成无限多个二级分类，也就是网站栏目。对于扩展性来说，如果有新的需求可以直接加一个栏目类型并新加功能操作

下载

在本例中，我们需要选择所有以events_d开头，但后面不是4的列。正则表达式events_d[^4]可以实现这一点：

events_d：匹配字面字符串"events_d"。
[^4]：这是一个字符集，表示匹配任何不是数字4的单个字符。因此，events_d[^4]会匹配events_d1、events_d2、events_d3，但不会匹配events_d4。

# 使用filter和正则表达式选择目标列
# regex="events_d[^4]" 匹配所有以 "events_d" 开头，但其后不是 "4" 的列
target_columns = df.filter(regex="events_d[^4]")

print("\n筛选出的目标列数据:")
print(target_columns)

3. 应用条件逻辑：检查是否存在大于零的值

选择了目标列后，下一步是检查每一行中这些列是否存在任何一个值大于0。

条件判断： target_columns > 0 会创建一个布尔型的DataFrame，其中每个元素都表示原始DataFrame中对应位置的值是否大于0。需要注意的是，np.nan与任何数字比较（包括> 0）的结果都是False，这符合我们“是否存在事件”的逻辑。
行级聚合： any(axis=1) 方法用于检查DataFrame的每一行（axis=1）中是否存在至少一个True值。如果一行中至少有一个值大于0，则该行的结果为True。这将返回一个布尔型Series，代表每行是否满足条件。

# 检查筛选列中是否存在大于0的值
# (target_columns > 0) 会生成一个布尔DataFrame
# .any(axis=1) 检查每行是否存在至少一个True值
condition = (target_columns > 0).any(axis=1)

print("\n每行是否满足条件 (存在大于0的值):")
print(condition)

4. 创建新列：使用 np.where()

最后一步是根据上一步生成的布尔条件Series来创建新的responder列。numpy.where()函数非常适合这种条件赋值的场景。

np.where(condition, value_if_true, value_if_false)：

condition：布尔型Series，即我们之前生成的condition。
value_if_true：当条件为True时赋的值（这里是'y'）。
value_if_false：当条件为False时赋的值（这里是'n'）。

# 根据条件创建新的'responder'列
df['responder'] = np.where(condition, 'y', 'n')

print("\n添加'responder'列后的DataFrame:")
print(df)

完整代码示例

将上述步骤整合在一起，形成一个完整的解决方案：

import pandas as pd
import numpy as np

# 示例DataFrame
data = {
    'Animal_ID': ['a1', 'a2', 'a3', 'a4'],
    'weight': [50, 52, 75, 53],
    'Project': ['p1', 'p2', 'p1', 'p2'],
    'Exp_type': ['Acute', 'chronic', 'Acute', 'chronic'],
    'researcher': ['alex', 'mat', 'alex', 'mat'],
    'events_d1': [0, 0, 1, 0],
    'events_d2': [0, 1, np.nan, np.nan],
    'events_d3': [0, 1, 2, np.nan],
    'events_d4': [4, 5, np.nan, 0]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 1. 使用filter和正则表达式选择目标列 (排除events_d4)
# regex="events_d[^4]" 匹配所有以 "events_d" 开头，但其后不是 "4" 的列
target_columns = df.filter(regex="events_d[^4]")

# 2. 检查筛选列中是否存在大于0的值
# (target_columns > 0) 生成布尔DataFrame
# .any(axis=1) 检查每行是否存在至少一个True值
# 注意：NaN值在比较时会被视为False，这符合“是否存在事件”的逻辑
condition = (target_columns > 0).any(axis=1)

# 3. 根据条件创建新的'responder'列
df['responder'] = np.where(condition, 'y', 'n')

print("\n添加'responder'列后的最终DataFrame:")
print(df)

注意事项

数据类型与NaN处理： 确保事件列的数据类型是数值型。Pandas的比较操作和any()方法能够很好地处理np.nan（非数字）值。在本例中，np.nan > 0结果为False，这通常符合“没有事件发生”的逻辑。如果NaN需要被视为“未知”或以其他方式处理，可能需要在条件判断前使用fillna()或isna()进行预处理。
正则表达式的灵活性： regex参数非常强大，可以根据实际的列命名模式进行调整。例如：
- 如果需要选择events_d1到events_d3：regex="events_d[1-3]"
- 如果需要选择所有以events_d开头的数字后缀列：regex="^events_d\d+$"
- axis=1在filter中表示按列名过滤，在any()中表示按行操作。
性能考量： 这种基于Pandas和NumPy的矢量化操作效率非常高，即使对于大型DataFrame也能提供良好的性能。
可读性： 尽管正则表达式提供了强大的灵活性，但过于复杂的正则表达式可能会降低代码的可读性。在必要时，添加注释以解释正则表达式的意图是一个好习惯。

总结

本教程展示了一种高效且灵活的方法，利用Pandas的filter()方法结合正则表达式动态选择列，并通过any(axis=1)进行行级条件判断，最终使用np.where()创建新的条件响应列。这种模式在数据清洗、特征工程以及自动化报告生成等场景中非常实用，能够显著提升数据处理的效率和代码的可维护性。掌握这种技巧将使您在处理复杂数据条件时更加得心应手。

Python 为什么推荐显式而不是隐式？

Python Selenium 元素定位失败的常见原因与修复指南

如何安全解析并逐行打印文件中的 Python 列表元素

如何解决 Selenium 在 Python 中无法定位网页可见元素的问题

Python 如何安全地处理用户输入？

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

510

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

249

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

742

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

213

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

234

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机（JVM）的核心工作原理与性能调优方法，包括 JVM 内存结构、对象创建与回收流程、垃圾回收器（Serial、CMS、G1、ZGC）对比分析、常见内存泄漏与性能瓶颈排查，以及 JVM 参数调优与监控工具（jstat、jmap、jvisualvm）的实战使用。通过真实案例，帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

2026.01.20

热门下载

网站特效

网站源码

网站素材

前端模板