使用Pandas填充特定字符串之间的NaN值

心靈之曲

发布时间：2025-09-28 12:51:23

703人浏览过

来源于php中文网

原创

使用Pandas填充特定字符串之间的NaN值

本教程详细介绍了如何在Pandas DataFrame中，精准地填充位于特定“start”和“finish”字符串之间的NaN值，而保留其他位置的NaN值不变。通过结合使用ffill()（向前填充）和bfill()（向后填充）方法，并利用布尔掩码进行逻辑组合，可以高效且精确地实现这一数据清洗任务。

1. 问题背景与挑战

在数据处理中，我们经常会遇到需要根据特定模式填充缺失值（nan）的情况。一个常见的场景是，当数据序列中存在明确的“开始”和“结束”标记时，我们希望只填充这些标记之间出现的nan值，而对标记之外的nan值保持不变。例如，给定一个序列：

start
NaN
NaN
finish
NaN
NaN
start
NaN
NaN
start
NaN
finish

我们期望将第一个start和finish之间的NaN填充为'check'，将最后一个start和finish之间的NaN填充为'check'，但中间的NaN值以及finish之后的NaN值应保持不变。

传统的df.ffill()或df.bfill()方法无法直接满足这一需求。ffill()会将NaN填充为其前面的有效值，而bfill()则会用其后面的有效值填充。如果直接使用，它们会填充所有NaN，或者无法精确限定填充范围。因此，我们需要一种更精细的控制机制。

2. 解决方案：基于布尔掩码的精确填充

解决此问题的关键在于构建两个布尔掩码，分别标识“从start开始到任意位置”以及“从任意位置到finish结束”的区域。然后，通过逻辑“与”操作 (&) 将这两个掩码结合起来，就能精确地定位到start和finish之间的NaN值。

2.1 准备示例数据

首先，我们创建一个Pandas DataFrame来模拟上述场景：

import pandas as pd
import numpy as np

data = {
    'start_finish': [
        'start', np.nan, np.nan, 'finish', np.nan, np.nan,
        'start', np.nan, np.nan, 'start', np.nan, 'finish'
    ]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出：

DreamStudio

SD兄弟产品！AI 图像生成器

下载

原始DataFrame:
   start_finish
0         start
1           NaN
2           NaN
3        finish
4           NaN
5           NaN
6         start
7           NaN
8           NaN
9         start
10          NaN
11       finish

2.2 构建布尔掩码

我们将分步构建所需的布尔掩码：

识别非NaN单元格： 首先，创建一个布尔序列m，标记出DataFrame中哪些单元格不是NaN。这有助于我们后续在where()方法中排除NaN值本身对填充逻辑的影响。
```
m = df['start_finish'].notna()
# print("\n非NaN单元格掩码 (m):")
# print(m)
```
构建向前填充掩码 (m1)： 这个掩码用于标识从一个'start'字符串开始，直到下一个非NaN值或序列结束的所有位置。
- df['start_finish'].eq('start')：创建一个布尔序列，'start'处为True，其他为False。
- .where(m)：将原始DataFrame中为NaN的位置（即m为False的位置）的布尔值设为NaN。这样可以确保ffill()只作用于非NaN值，避免将NaN本身视为有效值进行传播。
- .ffill()：向前填充True值。这意味着，一旦遇到'start'（True），它会将其后的所有NaN（由where(m)生成）填充为True，直到遇到下一个非NaN值。
```
m1 = df['start_finish'].eq('start').where(m).ffill()
# print("\n向前填充掩码 (m1):")
# print(m1)
```
构建向后填充掩码 (m2)： 这个掩码用于标识从一个'finish'字符串结束，向前直到上一个非NaN值或序列开始的所有位置。
- df['start_finish'].eq('finish')：创建一个布尔序列，'finish'处为True，其他为False。
- .where(m)：同样，将原始DataFrame中为NaN的位置的布尔值设为NaN。
- .bfill()：向后填充True值。这意味着，一旦遇到'finish'（True），它会将其前的所有NaN（由where(m)生成）填充为True，直到遇到上一个非NaN值。
```
m2 = df['start_finish'].eq('finish').where(m).bfill()
# print("\n向后填充掩码 (m2):")
# print(m2)
```

2.3 组合掩码并填充

现在，我们有了m1（表示“在start之后”）和m2（表示“在finish之前”）。通过对这两个掩码进行逻辑“与”操作 (&)，我们可以精确地找出那些同时满足“在start之后”和“在finish之前”条件的单元格。这些单元格正是我们希望填充的NaN值。

# 组合掩码
target_nans_mask = m1 & m2
# print("\n最终目标NaN掩码 (m1 & m2):")
# print(target_nans_mask)

# 使用布尔索引填充DataFrame
fill_value = 'check'
df.loc[target_nans_mask, 'start_finish'] = fill_value

2.4 完整代码示例

import pandas as pd
import numpy as np

# 1. 准备示例数据
data = {
    'start_finish': [
        'start', np.nan, np.nan, 'finish', np.nan, np.nan,
        'start', np.nan, np.nan, 'start', np.nan, 'finish'
    ]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

# 2. 构建布尔掩码
# 识别非NaN单元格
m = df['start_finish'].notna()

# NaNs cells after a start (向前填充)
# 找出'start'的位置，并将NaN处标记为NaN，然后向前填充True
m1 = df['start_finish'].eq('start').where(m).ffill()

# NaNs cells before a finish (向后填充)
# 找出'finish'的位置，并将NaN处标记为NaN，然后向后填充True
m2 = df['start_finish'].eq('finish').where(m).bfill()

# 3. 组合掩码并填充
# 只有当m1和m2都为True时，才表示该NaN位于start和finish之间
fill_value = 'check'
df.loc[m1 & m2, 'start_finish'] = fill_value

print("\n填充后的DataFrame:")
print(df)

2.5 运行结果

原始DataFrame:
   start_finish
0         start
1           NaN
2           NaN
3        finish
4           NaN
5           NaN
6         start
7           NaN
8           NaN
9         start
10          NaN
11       finish

填充后的DataFrame:
   start_finish
0         start
1         check
2         check
3        finish
4           NaN
5           NaN
6         start
7           NaN
8           NaN
9         start
10        check
11       finish

从结果可以看出，只有位于'start'和'finish'之间的NaN值被成功填充为'check'，而其他位置的NaN值保持不变，完美符合预期。

3. 注意事项与总结

where(m)的重要性： 在构建m1和m2时，where(m)是关键步骤。它确保了ffill()和bfill()操作只基于非NaN的标记（'start'或'finish'）进行传播，而不会错误地将NaN本身视为可传播的True或False。
灵活性： 这种基于布尔掩码的方法非常灵活。你可以轻松修改'start'和'finish'字符串，或者将'check'替换为任何你需要的填充值。
性能： 对于大型数据集，Pandas的向量化操作（如eq(), where(), ffill(), bfill(), 布尔索引）通常比迭代行具有更好的性能。
适用场景： 这种方法不仅适用于字符串，也适用于数值或其他类型的数据，只要能通过eq()等方法进行精确匹配即可。

通过巧妙地结合Pandas的ffill()、bfill()和布尔索引功能，我们能够以高度精确和高效的方式解决在特定标记之间填充NaN值的复杂问题。这种模式在处理日志数据、时间序列事件或任何需要基于上下文进行数据清洗的场景中都非常有用。

如何在Pandas中精准查找并统一替换含特定子串的字符串值

如何在Pandas中精准匹配并统一替换含特定子串的分类字段

如何在Pandas中批量查找并统一替换包含特定子字符串的分类字段

Python数据清洗流程_数据预处理方法

Python 爬虫数据清洗技巧总结

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1229

2024.03.22