使用 Pandas 实现条件性累积最小值（cummin）重置的技巧

花韻仙語

发布时间：2025-11-23 10:34:01

198人浏览过

来源于php中文网

原创

使用 pandas 实现条件性累积最小值（cummin）重置的技巧

本文深入探讨了在 Pandas DataFrame 中，如何创建一个新列 c，该列的值基于列 b 的累积最小值 (cummin())，但其计算过程会根据列 a 和 c 的前一个值的特定条件进行动态重置。我们将通过一个复杂的布尔掩码和分组操作的组合，展示一个高效且完全向量化的解决方案，以应对这种递归依赖的计算挑战。

在数据分析和处理中，我们经常需要根据复杂的业务逻辑创建新的特征列。其中一种常见的需求是计算累积最小值 (cummin())，但更具挑战性的是，当这个累积最小值需要在特定条件下“重置”并重新开始计算时。本教程将详细介绍如何使用 Pandas 库，以向量化的方式解决一个具体的问题：创建一个新列 c，它基于列 b 的累积最小值，但在满足 df.a.shift(1) > df.c.shift(1) 这一条件时，c 的值变为当前 b 的值，并且 cummin() 的计算从该点重新开始。

问题描述与初始数据

假设我们有一个 Pandas DataFrame，包含两列 a 和 b：

import pandas as pd

df = pd.DataFrame(
    {
        'a': [98, 97, 100, 135, 103, 100, 105, 109, 130],
        'b': [100, 103, 101, 105, 110, 120, 101, 150, 160]
    }
)

print("原始 DataFrame:")
print(df)

我们的目标是创建列 c，其计算规则如下：

初始时，c 的值是 b 的累积最小值 (df.b.cummin())。
当满足条件 df.a.shift(1) > df.c.shift(1) 时，当前行的 c 值应等于当前行的 b 值。
更重要的是，一旦条件满足，cummin() 的计算将从当前行开始“重置”，即后续行的 c 值将是当前行 b 值开始的累积最小值。

这是一个具有挑战性的问题，因为它涉及到对 c 列的递归依赖（c 的计算依赖于其自身的先前值），这使得简单的向量化操作变得困难。

期望的输出 df 如下：

     a    b    c
0   98  100  100
1   97  103  100
2  100  101  100
3  135  105  100
4  103  110  110  # 条件触发，c=b，cummin重置
5  100  120  110  # 从上一行b=110开始的cummin
6  105  101  101  # 从上一行b=110开始的cummin
7  109  150  150  # 条件触发，c=b，cummin重置
8  130  160  150  # 从上一行b=150开始的cummin

向量化解决方案

为了解决这种带有条件重置的累积计算问题，我们可以利用 Pandas 的 groupby 和布尔掩码 (mask, where) 功能。以下是实现所需逻辑的向量化代码：

m1 = df["b"].le(df["a"].shift())
cm = df["b"].groupby(m1.cumsum()).cummin()
m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))
df["c"] = cm.where(m2, df["b"].mask(m2).cummin())

print("\n生成列 'c' 后的 DataFrame:")
print(df)

解决方案详解

这个解决方案通过引入几个中间布尔掩码和分组累积操作，巧妙地避免了递归计算，实现了完全的向量化。让我们逐步解析每个部分的含义：

听脑AI

听脑AI语音，一款专注于音视频内容的工作学习助手，为用户提供便捷的音视频内容记录、整理与分析功能。

下载

m1 = df["b"].le(df["a"].shift())
- 这一步创建了一个布尔序列 m1，用于标识 b 的当前值是否小于或等于 a 的前一个值。
- df["a"].shift() 将 a 列向下移动一位，使得当前行可以与前一行的 a 值进行比较。
- le() 是 "less than or equal to" 的缩写。
- m1 的作用是识别潜在的“重置点”或“新组的开始”。当 b 相对前一个 a 变得足够小（或相等）时，这可能意味着一个新的累积最小值序列的开始。
示例 m1 值的生成：
```
a_s (a.shift())  b    b <= a_s  -> m1
NaN              100  False
98.0             103  False
97.0             101  False
100.0            105  False
135.0            110  True   # b(110) <= a_s(135)
103.0            120  False
100.0            101  False
105.0            150  False
109.0            160  False
```
cm = df["b"].groupby(m1.cumsum()).cummin()
- m1.cumsum()：这一步是关键。m1 中的 True 值会被视为 1，False 视为 0。cumsum() 会计算这些 0 和 1 的累积和。当 m1 遇到一个 True 时，累积和会增加 1，从而创建一个新的组 ID。
- 例如，如果 m1 是 [F, F, T, F, T]，那么 m1.cumsum() 将是 [0, 0, 1, 1, 2]。
- df["b"].groupby(m1.cumsum())：根据 m1.cumsum() 生成的组 ID 对 b 列进行分组。
- .cummin()：在每个分组内部独立地计算 b 的累积最小值。这有效地实现了“条件性重置”的累积最小值，即每当 m1 为 True 时，累积最小值就会重新开始计算。
示例 cm 值的生成：
```
m1        m1.cumsum()  b       cm (分组cummin)
False     0            100     100
False     0            103     100
False     0            101     100
False     0            105     100
True      1            110     110
False     1            120     110
False     1            101     101
False     1            150     101
False     1            160     101
```
m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))
- m2 是一个最终的布尔掩码，用于决定 c 列的每个值应该从 cm 中取，还是从一个独立的、基于 b 的 cummin 中取。
- 它由两个条件通过逻辑或 (|) 组合而成：
  - df["b"].le(cm)：当前 b 值是否小于或等于 cm 值。如果为真，意味着 b 仍在当前 cm 序列的范围内。
  - df["a"].shift().le(cm.shift())：a 的前一个值是否小于或等于 cm 的前一个值。如果为真，表示前一个状态仍然符合累积最小值的逻辑。
- 当 m2 为 True 时，表示 cm 中的值是有效的，可以作为 c 的值。
- 当 m2 为 False 时，表示 cm 中的值不再有效（例如，当前 b 值远大于 cm，或者前一个 a 值相对于前一个 cm 值过大），此时需要启动一个新的 cummin 序列，其起始值就是当前的 b。
示例 m2 值的生成：
```
b    cm   b<=cm  a_s  cm_s  a_s<=cm_s  m2 (b<=cm | a_s<=cm_s)
100  100  True   NaN  NaN   False      True
103  100  False  98   100   True       True
101  100  False  97   100   True       True
105  100  False  100  100   True       True
110  110  True   135  100   False      True
120  110  False  103  110   True       True
101  101  True   100  110   True       True
150  101  False  105  101   False      False  # b(150)>cm(101) 且 a_s(105)>cm_s(101)
160  101  False  109  101   False      False  # b(160)>cm(101) 且 a_s(109)>cm_s(101)
```
df["c"] = cm.where(m2, df["b"].mask(m2).cummin())
- 这是最终 c 列的构造步骤。
- cm.where(m2, ...)：where 函数根据布尔条件 m2 来选择值。
  - 如果 m2 为 True，则 c 的值取自 cm。
  - 如果 m2 为 False，则 c 的值取自 where 函数的第二个参数。
- df["b"].mask(m2)：

相关专题

Sass和less的区别

Sass和less的区别有语法差异、变量和混合器的定义方式、导入方式、运算符的支持、扩展性等。本专题为大家提供Sass和less相关的文章、下载、课程内容，供大家免费下载体验。

216

2023.10.12

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板