使用Pandas根据字典映射对DataFrame列进行求和

碧海醫心

发布时间：2025-11-04 11:13:01

167人浏览过

来源于php中文网

原创

使用pandas根据字典映射对dataframe列进行求和

本文详细介绍了如何利用Pandas高效地根据一个字典映射，将DataFrame中的多列进行分组求和，生成一个新的DataFrame。我们将探讨两种主流的Pandas实现方法，包括利用rename结合groupby进行列操作，以及通过转置DataFrame来处理列分组求和，确保解决方案的简洁性、效率和对不同Pandas版本的兼容性。

在数据处理中，我们经常需要根据特定的业务逻辑或分析需求，将DataFrame中的现有列进行组合或聚合。一个常见的场景是，给定一个DataFrame和一套列名映射规则（通常以字典形式给出），我们需要创建新的列，其中每个新列是原始DataFrame中对应列的行级总和。本教程将展示如何以高度“Pandasic”的方式实现这一目标，避免使用低效的循环结构。

初始数据准备

首先，我们定义一个示例DataFrame和一个字典，该字典将新列名映射到原始DataFrame中需要求和的列名列表。

import pandas as pd

# 示例DataFrame
df = pd.DataFrame([[4,8,52,7,54],[0,20,2,21,35],[2,33,12,1,87]], 
                  columns = ['A', 'B', 'C', 'D', 'E'])

# 列名映射字典：键为新列名，值为原始列名列表
dic = {'x':['A','D'], 'y' : ['E'], 'z':['B','C']}

print("原始DataFrame:")
print(df)
print("\n列名映射字典:")
print(dic)

我们的目标是创建一个新的DataFrame，其中包含'x'、'y'、'z'三列。'x'列应是原始'A'和'D'列的行级和，'y'列是'E'列的行级和，'z'列是'B'和'C'列的行级和。

方法一：利用 rename 和 groupby(axis=1)

这种方法的核心思想是首先“反转”我们的映射字典，使其能够将原始列名映射到新的列名。然后，我们使用df.rename()函数根据这个反转后的字典临时修改列名，最后通过groupby(level=0, axis=1).sum()对具有相同新列名的列进行分组求和。

反转字典： 我们需要一个从原始列名到新列名的映射。例如，{'A': 'x', 'D': 'x', 'E': 'y', 'B': 'z', 'C': 'z'}。
```
d2 = {v:k for k,l in dic.items() for v in l}
print("\n反转后的字典:")
print(d2)
```
重命名并分组求和： 使用df.rename(columns=d2)将DataFrame的列名根据d2进行修改。此时，例如，原有的'A'和'D'列都会被临时命名为'x'。接着，groupby(level=0, axis=1).sum()会沿着列方向（axis=1）根据列名（level=0，因为列名是唯一的层级）进行分组，并对每个组内的列进行求和。
```
out_method1 = df.rename(columns=d2).groupby(level=0, axis=1).sum()
print("\n方法一结果:")
print(out_method1)
```
输出结果：

Gambo
世界上首个游戏氛围编程智能体

下载
```
    x   y   z
0  11  54  60
1  21  35  22
2   3  87  45
```

方法二：通过转置 DataFrame 进行处理

在较新版本的Pandas中，直接在groupby中使用axis=1可能会被弃用。为了兼容未来的版本或在某些情况下提供更清晰的逻辑，我们可以采用转置DataFrame的方法。这种方法将列转换为行，从而可以在行上执行groupby操作，这通常是groupby的默认行为，且更直观。

反转字典： 与方法一相同，我们首先需要一个从原始列名到新列名的映射d2。
```
# d2 已在方法一中创建
# d2 = {'A': 'x', 'D': 'x', 'E': 'y', 'B': 'z', 'C': 'z'}
```
转置、重命名、分组求和再转置：
- df.T：将DataFrame转置，使原始列名变为索引。
- .rename(d2)：此时，d2字典将用于重命名转置后的DataFrame的索引（即原始列名）。
- .groupby(level=0).sum()：在转置后的DataFrame上，根据索引（即新的列名）进行分组求和。
- .T：最后，将结果再次转置，恢复为我们期望的列式结构。
```
out_method2 = df.T.rename(d2).groupby(level=0).sum().T
print("\n方法二结果:")
print(out_method2)
```
输出结果：
```
    x   y   z
0  11  54  60
1  21  35  22
2   3  87  45
```

注意事项与总结

Pandas 版本兼容性： 方法一中的groupby(axis=1)在某些Pandas版本中可能会有弃用警告。方法二通过转置DataFrame来规避了这个问题，因此在长期维护和兼容性方面可能更具优势。
效率： 对于大型DataFrame，这两种Pandas的矢量化操作通常比手动循环迭代要高效得多。Pandas底层使用C语言实现，能够优化这些操作。
可读性： 两种方法都相对简洁，但方法二可能对初学者来说更易理解，因为它将列操作转换为更常见的行操作。
字典完整性： 确保dic字典中包含的原始列名都存在于DataFrame中，否则rename操作可能会引发KeyError或导致某些列不被处理。

通过这两种方法，我们可以优雅且高效地根据复杂的字典映射对DataFrame的列进行分组求和。选择哪种方法取决于您的Pandas版本、个人偏好以及对代码可读性的权衡。在实际应用中，理解并掌握这些高级的Pandas操作，能够显著提升数据处理的效率和代码质量。

Python 内置 max() 函数为何比手动循环更高效？

Python内置max()函数在查找最大值时的性能优势与最佳实践

C语言实现Luhn校验和算法的常见陷阱与正确实践

python和c语言的区别是什么

python是什么语言写的

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

640

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

264

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

634

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

564

2023.09.20