0

0

Pandas DataFrame中高效生成基于分组的唯一ID

DDD

DDD

发布时间:2025-09-24 11:08:23

|

171人浏览过

|

来源于php中文网

原创

Pandas DataFrame中高效生成基于分组的唯一ID

本教程详细介绍了如何在Pandas DataFrame中,基于现有两列(如Name和ID)高效创建新的唯一组合ID。针对传统方法如ngroup()和cumcount()的局限性,本文提出了利用pandas.factorize结合groupby().transform()函数,为每个ID组内的Name实例生成递增的唯一后缀,最终构建出ID_新后缀格式的组合ID,尤其适用于处理大规模数据集。

一、背景与挑战

在数据处理和分析中,我们经常需要为数据集中的记录生成唯一的标识符。当这些标识符需要基于多列信息,并且要求在某一列(如id)的分组内,根据另一列(如name)的出现顺序或唯一性来生成时,问题会变得复杂。例如,给定一个dataframe,其中包含name和id两列:

Name ID
A 1
B 2
A 1
C 3
B 2
D 3
E 1
F 2

我们的目标是创建一个新的ID_new列,其格式为原始ID_后缀,其中后缀表示该Name在对应ID组内的唯一实例序号。例如,ID=1的第一个A和第二个A都应对应1_1,而ID=3的C是第一个Name,D是第二个Name,则分别对应3_1和3_2。

传统的Pandas方法如groupby().ngroup()虽然可以生成组内序号,但它为每个组生成一个唯一的整数,不适用于我们这种需要保留原始ID并添加后缀的场景。而groupby().cumcount()则会为每个组内的行生成递增序号,导致对于相同的Name在同一ID组内产生不同的后缀(例如,ID=1的两个A会分别得到1_1和1_2),这不符合我们的“唯一实例”要求。此外,对于拥有数万甚至数十万个ID的大规模数据集,某些方法可能会面临性能瓶颈

二、解决方案:结合 factorize 与 groupby().transform()

解决此类问题的有效方法是利用pandas.factorize函数在groupby().transform()的上下文中使用。factorize函数能够将数组中的唯一值映射为整数编码,这正是我们所需的“唯一实例序号”。transform()则确保了操作结果能够正确地对齐回原始DataFrame的索引。

2.1 核心原理

  1. 分组 (groupby('ID')): 首先,根据ID列对DataFrame进行分组。
  2. 组内应用函数 (transform(f)): 对于每个ID组,我们只关注Name列。transform()函数会将一个函数应用于每个组的Name列,并返回一个与原始DataFrame具有相同索引的Series。
  3. factorize 生成后缀: 在transform中应用的函数f会调用pd.factorize(x)[0] + 1。
    • pd.factorize(x)会返回一个元组,其中第一个元素是整数数组,代表x中唯一值的编码。例如,['A', 'B', 'A', 'C']经过factorize可能得到[0, 1, 0, 2]。
    • [0]用于提取这个整数数组。
    • + 1是为了让序号从1开始,而非0。
    • 这样,对于每个ID组,factorize会为该组内出现的每个唯一Name分配一个唯一的、从1开始的整数后缀。
  4. 拼接 (str.cat): 最后,将原始的ID列(转换为字符串)与生成的后缀(也转换为字符串)通过分隔符_进行拼接,形成新的ID_new列。

2.2 示例代码

让我们通过一个具体的例子来演示这个过程。

知识画家
知识画家

AI交互知识生成引擎,一句话生成知识视频、动画和应用

下载
import pandas as pd

# 准备示例数据
data = {
    'Name': ['A', 'B', 'A', 'C', 'B', 'D', 'E', 'F'],
    'ID': [1, 2, 1, 3, 2, 3, 1, 2]
}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

# 定义一个lambda函数,用于在每个组内对Name列进行factorize编码
# factorize返回的第一个元素是编码数组,我们将其加1使其从1开始计数
f = lambda x: pd.factorize(x)[0] + 1

# 使用groupby().transform()在每个ID组内生成Name的唯一序号
# transform确保了结果Series的索引与原始DataFrame对齐
s = df.groupby('ID')['Name'].transform(f).astype(str)

# 将原始ID列转换为字符串,并与生成的后缀进行拼接
df['ID_new'] = df['ID'].astype(str).str.cat(s, sep='_')

print("\n生成 'ID_new' 列后的 DataFrame:")
print(df)

输出结果:

原始 DataFrame:
  Name  ID
0    A   1
1    B   2
2    A   1
3    C   3
4    B   2
5    D   3
6    E   1
7    F   2

生成 'ID_new' 列后的 DataFrame:
  Name  ID ID_new
0    A   1    1_1
1    B   2    2_1
2    A   1    1_1
3    C   3    3_1
4    B   2    2_1
5    D   3    3_2
6    E   1    1_2
7    F   2    2_2

从结果可以看出,ID=1的两个A都得到了1_1,而ID=3的C得到3_1,D得到3_2,这完全符合我们的预期。ID=1的E由于是ID=1组内第一次出现E,因此得到1_2(因为A已经占用了1)。

三、注意事项与性能考量

  1. 数据类型转换: 在拼接字符串之前,务必将ID列和生成的后缀Series都转换为字符串类型(astype(str)),否则str.cat方法可能无法正常工作。
  2. 性能优势: pd.factorize在底层使用优化的C语言实现,效率非常高。结合groupby().transform(),这种方法能够高效地处理大规模数据集,避免了Python循环的开销,尤其适用于拥有大量分组和记录的场景。相比于ngroup()或cumcount()在特定逻辑下的局限性,此方法提供了更精确和高效的解决方案。
  3. 灵活性: 分隔符sep='_'可以根据需求进行调整。如果需要更复杂的后缀生成逻辑,也可以修改lambda函数中的factorize部分,或者替换为其他自定义函数。
  4. factorize的顺序: factorize的编码顺序取决于元素在输入Series中第一次出现的顺序。这意味着如果ID=1组中先出现A,再出现E,那么A会得到1,E会得到2。如果数据顺序发生变化,编码结果可能也会变化,但对于“唯一实例”的语义是保持一致的。

四、总结

本文介绍了一种在Pandas DataFrame中高效生成基于分组的唯一组合ID的专业方法。通过巧妙地结合pandas.factorize函数与groupby().transform()操作,我们能够克服传统方法的局限性,为每个分组内的独特实例生成正确的递增后缀,并将其与原始ID进行拼接。这种方法不仅逻辑清晰、易于理解,而且在处理大规模数据集时表现出卓越的性能,是数据科学家和工程师在处理类似需求时的理想选择。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

401

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

620

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

354

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

259

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

606

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

531

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

647

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

604

2023.09.22

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

9

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号