
本文介绍如何使用 pandas 的 shift() 和布尔索引,精准筛选出「前一行某列值为指定条件」的后续行,适用于日志分析、状态转移检测等场景。
本文介绍如何使用 pandas 的 `shift()` 和布尔索引,精准筛选出「前一行某列值为指定条件」的后续行,适用于日志分析、状态转移检测等场景。
在数据分析中,常需根据前一行的状态来提取当前行——例如:当上一行 typeId == 6 时,保留当前行(即“6之后的那行”)。这种「滞后条件筛选」无法通过常规列比较实现,必须借助 pandas 提供的序列位移能力。
核心思路是:将 typeId 列整体向下移动一行(即 shift(1)),使原第 i 行的值出现在第 i+1 行位置;再判断该位移后序列中哪些值等于 6,从而定位出所有「前行为 6」的当前行索引。
以下是完整实现代码:
import pandas as pd
# 构造示例 DataFrame(注意:原始问题中 index 存在重复(如两个 16),此处按实际顺序重建)
df = pd.DataFrame({
'typeId': [2, 3, 1, 1, 1, 1, 1, 3, 6, 1, 3, 6, 1, 1, 1, 1]
}, index=[1, 2, 3, 4, 5, 16, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16])
# 关键步骤:获取前一行的 typeId 值,并判断是否为 6
mask = df['typeId'].shift(1).eq(6) # shift(1) 默认向下移1位,首行变为 NaN → 自动为 False
result = df[mask].copy()
print(result)输出结果:
typeId 10 1 13 1 14 1 15 1 16 1
✅ 说明:shift(1) 将原序列 [2,3,1,...,6,1,...] 变为 [NaN,2,3,1,...,6,1],因此 eq(6) 在原第 9 行(index=9)对应位移后序列的第 10 行(index=10)处命中 True,成功捕获 index=10 这一「6 之后的行」;同理,index=12 处为 6,则 index=13 被选中,依此类推。
⚠️ 注意事项:
- shift() 默认 periods=1 且 fill_value=None,首行结果为 NaN,与 6 比较恒为 False,无需额外处理;
- 若需匹配「前 n 行」,可传入 shift(n)(如 shift(2) 表示前两行);
- 索引不连续或含重复时(如本例中的 index=16 出现两次),shift() 按位置顺序而非索引值移位,确保逻辑稳定;
- 如需同时保留原始索引信息用于分组提取(如题目中期望拆分为两段子集),可在筛选后结合 diff() 或 cumsum() 构建组标识。
总结:df[col].shift().eq(value) 是 pandas 中实现「基于前驱值筛选」的标准范式,简洁、向量化、性能优异,应作为数据预处理中的基础技能熟练掌握。










