0

0

Pandas DataFrame:基于多列和时间间隔分配唯一ID

DDD

DDD

发布时间:2025-07-10 18:21:23

|

297人浏览过

|

来源于php中文网

原创

pandas dataframe:基于多列和时间间隔分配唯一id

本文旨在提供一种高效的解决方案,利用 Pandas 库为 DataFrame 数据行分配唯一 ID。该方案基于日期、名称、产品等多列组合,并结合时间间隔的条件判断,实现灵活的ID生成逻辑,适用于需要对数据进行分组和识别的场景。

在数据处理过程中,为 DataFrame 中的数据行分配唯一的 ID 是一项常见的任务。尤其是在需要根据多个列的组合以及时间间隔来动态生成 ID 时,更需要巧妙地利用 Pandas 库的功能。本文将介绍一种基于 Pandas 的方法,通过组合使用 ne (not equal)、shift、assign、any 和 cumsum 等函数,实现根据日期、名称、产品以及时间间隔(Elapsed_time)为 DataFrame 分配唯一 ID 的需求。

解决方案

假设我们有一个 DataFrame,包含 Date(日期)、Name(名称)、Product(产品)和 Elapsed_time(经过时间)等列。我们的目标是为每一行分配一个唯一的 ID,规则如下:

  1. 当 Date、Name 和 Product 的组合发生变化时,ID 递增。
  2. 在相同的 Date、Name 和 Product 组合内,如果 Elapsed_time 大于或等于 100 秒,则 ID 再次递增,并且后续行的 ID 保持递增后的值,直到 Date、Name 或 Product 发生变化。

以下代码展示了如何使用 Pandas 实现这一逻辑:

绘蛙AI商品图
绘蛙AI商品图

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载
import pandas as pd

# 示例 DataFrame
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)

cols = ['Date', 'Name', 'Product']
df['id'] = (df[cols].ne(df[cols].shift())
             .assign(x=df['Elapsed_time'].ge(100))
             .any(axis=1).cumsum()
            )

print(df)

代码解释:

  1. cols = ['Date', 'Name', 'Product']: 定义一个列表,包含用于分组的列名。
  2. df[cols].ne(df[cols].shift()): 将当前行的 Date、Name 和 Product 与上一行进行比较,如果任何一个值不同,则返回 True,否则返回 False。 shift() 函数用于将 DataFrame 的列向下移动一行,方便进行比较。
  3. .assign(x=df['Elapsed_time'].ge(100)): 创建一个新的布尔列 x,如果 Elapsed_time 大于或等于 100,则该列的值为 True,否则为 False。
  4. .any(axis=1): 对每一行,判断 Date、Name、Product 的变化以及 Elapsed_time 是否大于等于 100,只要其中一个条件为 True,则该行的结果为 True。 axis=1 表示按行进行判断。
  5. .cumsum(): 对 any(axis=1) 的结果进行累加求和。由于 True 被视为 1,False 被视为 0,因此 cumsum() 的结果就是 ID。

输出结果:

        Date  Name Product  Elapsed_time  id
0   10/25/23  Bill       A            30   1
1   10/25/23  Bill       A            99   1
2   10/25/23  John       B            10   2
3   10/25/23  John       B           100   3
4   10/25/23  John       B             1   3
5   10/25/23  John       B            15   3
6   10/26/23  John       C            45   4
7   10/27/23  Carl       A           120   5
8   10/27/23  Carl       A            99   5
9   10/27/23  Carl       A            80   5
10  10/27/23  Carl       A           101   6
11  10/27/23  Carl       B           300   7
12  10/27/23  Carl       A            12   8
13  10/27/23  Carl       A            37   8

总结

通过巧妙地组合 Pandas 的各种函数,我们可以高效地实现复杂的 ID 生成逻辑。 这种方法不仅简洁易懂,而且性能良好,适用于处理大型数据集。 在实际应用中,可以根据具体需求调整代码,例如修改分组的列名或调整时间间隔的阈值。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

24

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

6

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

24

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

31

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

11

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

30

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号