0

0

在Pandas DataFrame中高效计算客户不同类型前一笔交易金额

聖光之護

聖光之護

发布时间:2025-11-30 11:17:02

|

1023人浏览过

|

来源于php中文网

原创

在pandas dataframe中高效计算客户不同类型前一笔交易金额

本文旨在解决如何在Pandas DataFrame中,为每笔交易查找同一客户在当前交易日期之前发生的、不同交易类型的上一笔交易金额。我们将探讨常见低效方法的局限性,并提供一种基于分组迭代的优化解决方案,通过维护状态变量来高效处理时间序列数据,确保结果的准确性和性能。

引言

在数据分析领域,我们经常需要处理包含时间序列信息的交易数据。一个常见的需求是根据当前事件,回溯查找之前发生的特定相关事件。例如,在客户交易数据中,我们可能需要找出每个客户在当前交易之前,其不同类型的上一笔交易的金额。这对于分析客户行为模式、识别交叉销售机会或进行风险评估都至关重要。

考虑一个包含客户ID (KEY_ID)、交易类型 (TYPE)、交易金额 (AMOUNT) 和交易日期 (DATE) 的DataFrame。我们的目标是添加一个新列 PREV_AMOUNT,其中包含针对当前交易,同一客户在之前进行的、类型与当前交易相反的最近一笔交易的金额。如果不存在此类交易,则应为 NaN。

数据准备与问题示例

首先,我们定义一个示例DataFrame来演示这个问题。假设交易类型只有两种,例如“Motor”和“Tool”。

输入数据结构:

KEY_ID TYPE AMOUNT DATE
1 Motor 5000 2020-01-01
1 Tool 3000 2020-02-01
1 Tool 7000 2020-03-01
2 Tool 2000 2020-01-15
2 Motor 6000 2020-02-15
2 Tool 4000 2020-03-15

期望输出:

KEY_ID TYPE AMOUNT DATE PREV_AMOUNT
1 Motor 5000 2020-01-01 NaN
1 Tool 3000 2020-02-01 5000
1 Tool 7000 2020-03-01 5000
2 Tool 2000 2020-01-15 NaN
2 Motor 6000 2020-02-15 2000
2 Tool 4000 2020-03-15 6000

在开始处理之前,确保DataFrame已按 KEY_ID 和 DATE 升序排序是至关重要的,这能保证我们在遍历时始终处理的是按时间顺序排列的交易。

import pandas as pd
import numpy as np

# 示例数据
data = {
    'KEY_ID': [1, 1, 1, 2, 2, 2],
    'TYPE': ['Motor', 'Tool', 'Tool', 'Tool', 'Motor', 'Tool'],
    'AMOUNT': [5000, 3000, 7000, 2000, 6000, 4000],
    'DATE': pd.to_datetime(['2020-01-01', '2020-02-01', '2020-03-01',
                            '2020-01-15', '2020-02-15', '2020-03-15'])
}
df = pd.DataFrame(data)

# 确保按 KEY_ID 和 DATE 排序
df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True)
print("原始DataFrame (已排序):")
print(df)

常见误区与低效方法

在处理这类问题时,初学者常会尝试以下方法,但它们往往存在效率或逻辑上的问题:

  1. 行迭代与全局筛选 (df.apply): 这种方法通常涉及定义一个函数,该函数接收每一行作为输入,然后在函数内部对整个DataFrame进行筛选以找到符合条件的上一笔交易。

    # 示例低效函数 (可能导致内核崩溃)
    def find_previous_request_inefficient(row, dataframe):
        previous_requests = dataframe[
            (dataframe['KEY_ID'] == row['KEY_ID']) &
            (dataframe['TYPE'] != row['TYPE']) &
            (dataframe['DATE'] < row['DATE'])
        ]
        if not previous_requests.empty:
            return previous_requests.iloc[-1]['AMOUNT']
        return np.nan
    
    # df['PREV_AMOUNT'] = df.apply(lambda row: find_previous_request_inefficient(row, df), axis=1)
    # 此方法在大型数据集上因重复的全表扫描而极其低效,可能导致内存溢出或内核崩溃。

    这种方法的问题在于,对于DataFrame中的每一行,都会进行一次对整个DataFrame的筛选操作,其时间复杂度为O(N^2 * M),其中N是行数,M是列数。在大规模数据集上,这会导致性能急剧下降,甚至造成内核崩溃。

    Getimg.ai
    Getimg.ai

    getimg.ai是一套神奇的ai工具。生成大规模的原始图像

    下载
  2. groupby().shift() 误用:shift() 函数常用于获取同一组内的前一个或后一个值。然而,直接使用 groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift() 只能获取到同一客户、同一类型的前一笔交易金额,无法满足“不同类型”的要求。

    # 示例错误逻辑
    # df['prev_amount_wrong'] = df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()
    # 这只会获取到同一类型的前一笔交易,不符合“不同类型”的要求。

高效解决方案:分组迭代与状态维护

解决此问题的有效方法是利用Pandas的 groupby 功能,结合在每个组内进行迭代并维护状态变量的策略。对于每个客户 (KEY_ID),我们跟踪其最近一次“Motor”类型交易的金额和最近一次“Tool”类型交易的金额。

核心思想:

  1. 按客户分组: 将DataFrame按 KEY_ID 分组,这样我们可以独立处理每个客户的交易历史。
  2. 组内迭代: 对于每个客户组,按照交易日期 (DATE) 顺序迭代其交易记录。
  3. 状态维护: 在迭代过程中,为每种交易类型(例如“Motor”和“Tool”)维护一个变量,存储该客户最近一次对应类型交易的金额。
  4. 条件赋值: 当处理当前交易时,根据其 TYPE:
    • 如果当前交易是“Motor”类型,那么其 PREV_AMOUNT 应该是之前记录的 last_tool 交易金额。然后,更新 last_motor 为当前交易的金额。
    • 如果当前交易是“Tool”类型,那么其 PREV_AMOUNT 应该是之前记录的 last_motor 交易金额。然后,更新 last_tool 为当前交易的金额。

这种方法的时间复杂度更接近O(N log N)(主要来自排序和分组),远优于O(N^2)的 apply 方法。

代码实现:

# 初始化 PREV_AMOUNT 列
df['PREV_AMOUNT'] = np.nan

# 按 KEY_ID 分组
grouped = df.groupby('KEY_ID')

# 遍历每个客户组
for key_id, group in grouped:
    # 为每个客户初始化最近一次 Motor 和 Tool 交易的金额
    last_motor_amount = np.nan
    last_tool_amount = np.nan

    # 遍历组内的每一行(已按日期排序)
    for index, row in group.iterrows():
        current_type = row['TYPE']
        current_amount = row['AMOUNT']

        if current_type == 'Motor':
            # 如果当前是 Motor 交易,则其 PREV_AMOUNT 是上一次 Tool 交易的金额
            df.loc[index, 'PREV_AMOUNT'] = last_tool_amount
            # 更新上一次 Motor 交易的金额
            last_motor_amount = current_amount
        elif current_type == 'Tool':
            # 如果当前是 Tool 交易,则其 PREV_AMOUNT 是上一次 Motor 交易的金额
            df.loc[index, 'PREV_AMOUNT'] = last_motor_amount
            # 更新上一次 Tool 交易的金额
            last_tool_amount = current_amount

print("\n最终结果DataFrame:")
print(df)

代码解析:

  1. df['PREV_AMOUNT'] = np.nan: 首先创建 PREV_AMOUNT 列并用 NaN 填充,作为所有交易的默认值,特别是对于那些没有前序不同类型交易的记录。
  2. grouped = df.groupby('KEY_ID'): 根据 KEY_ID 对DataFrame进行分组。
  3. for key_id, group in grouped:: 循环遍历每个客户的交易组。group 是一个子DataFrame,包含了特定 KEY_ID 的所有交易。
  4. last_motor_amount = np.nan 和 last_tool_amount = np.nan: 在处理每个新客户之前,重置 last_motor_amount 和 last_tool_amount 为 NaN。这确保了不同客户之间的交易记录不会相互影响。
  5. for index, row in group.iterrows():: 在每个客户组内部,我们再次迭代其行。由于原始DataFrame已经按 DATE 排序,这里的迭代顺序也是时间顺序。
  6. if current_type == 'Motor': ... else if current_type == 'Tool': ...: 根据当前交易的 TYPE,我们执行以下操作:
    • 将 PREV_AMOUNT 设置为对应“相反类型”的 last_amount。
    • 更新当前 TYPE 的 last_amount 为当前交易的 AMOUNT。

注意事项

  • 数据类型: 确保 DATE 列是Pandas的日期时间类型 (datetime),以便正确排序。如果不是,可以使用 pd.to_datetime() 进行转换。
  • 初始值: 如果一个客户的第一个交易就是某种类型,且之前没有相反类型的交易,那么 PREV_AMOUNT 将保持为 NaN,这符合预期。
  • 多于两种类型: 如果 TYPE 列有多种类别,且需要查找任意“不同类型”的上一笔交易,那么维护状态变量的方式会更复杂。可能需要一个字典来存储 last_amount_by_type = {'TypeA': amount, 'TypeB': amount, ...},并在查找时遍历字典排除当前类型。如果只需要查找特定的两种类型之间的交叉,则当前方法依然适用。
  • 性能优化: 对于极大规模的数据集,虽然此方法比 apply 更优,但Python循环仍然可能成为瓶颈。在某些情况下,可以考虑使用 numba 或 C 扩展来进一步加速循环部分,或者探索其他基于 merge_asof 等更高级的Pandas函数(尽管 merge_asof 在处理“不同类型”的条件时可能需要更复杂的预处理)。但对于大多数常见数据集,当前方案已足够高效。

总结

本文介绍了一种在Pandas DataFrame中高效计算客户不同类型前一笔交易金额的方法。通过结合 groupby 和组内迭代,并在循环中维护状态变量,我们能够准确且高效地解决这一常见的时间序列数据分析问题,避免了低效的全表扫描和不正确的 shift 逻辑。这种模式对于需要根据历史事件进行条件性计算的场景非常有用,体现了Pandas处理复杂数据关系的强大能力。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

57

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

776

2023.08.22

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

538

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

26

2026.01.06

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

101

2025.10.16

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号