Pandas DataFrame列唯一值统计与嵌套字典转换指南

心靈之曲

发布时间：2025-10-28 13:31:04

556人浏览过

来源于php中文网

原创

Pandas DataFrame列唯一值统计与嵌套字典转换指南

本教程详细阐述了如何在pandas dataframe中高效地统计每一列的唯一值及其出现次数，并将结果转换为一个以列名为键、以`{唯一值: 计数}`字典为值的嵌套字典。通过巧妙运用pandas series的`value_counts()`方法结合python的字典推导式，我们能够以简洁、高性能的方式实现这一常见数据分析任务，有效避免传统循环或复杂聚合操作带来的效率问题。

在数据分析和预处理过程中，经常需要对DataFrame中的每一列进行唯一值计数。例如，我们可能需要了解某个分类列中每个类别的分布情况，或者检查数值列中特定值的频率。当最终结果需要以特定字典格式输出时，高效且Pythonic的实现方式尤为重要。

核心需求分析

我们的目标是将一个Pandas DataFrame，例如：

import pandas as pd

data = {'Col1': [1, 2, 2, 3, 1],
        'Col2': ['A', 'B', 'B', 'A', 'C']}
df = pd.DataFrame(data)
print(df)

输出为一个嵌套字典，其结构如下：

{'Col1': {1: 2, 2: 2, 3: 1},
 'Col2': {'A': 2, 'B': 2, 'C': 1}}

这个字典的顶层键是DataFrame的列名，对应的值是另一个字典，该字典的键是该列中的唯一值，值是该唯一值出现的次数。此外，我们要求在实现过程中避免使用显式的for循环、apply或agg方法，以追求更高的性能和代码简洁性。

常见挑战与误区

一些开发者可能会尝试使用stack、groupby和unstack的组合来解决这个问题，例如：

# 尝试的方案，但存在问题
# count_matrix = df.stack().groupby(level=1).value_counts()
# count_matrix = count_matrix.unstack(0)
# count_matrix = count_matrix.to_dict()

这种方法虽然在某些场景下有用，但对于本例的特定输出格式，它会引入不必要的复杂性，并可能在unstack()操作时产生NaN值来填充缺失的组合，从而导致最终结果不符合预期。unstack()操作会将多级索引转换为列，如果某些值在所有原始分组中都不存在，就会引入NaN，这与我们期望的纯净计数字典不符。

高效解决方案

Pandas提供了一种非常简洁且高效的方式来完成这一任务，它结合了Series的value_counts()方法和Python的字典推导式。

核心思想是：

VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

下载

遍历DataFrame的每一列。
对于每一列（它是一个Pandas Series），使用value_counts()方法直接统计其唯一值的出现次数。
将value_counts()返回的Series转换为字典。
使用字典推导式将这些结果组合成最终的嵌套字典。

以下是实现这一目标的推荐代码：

import pandas as pd

# 示例数据
data = {'Col1': [1, 2, 2, 3, 1],
        'Col2': ['A', 'B', 'B', 'A', 'C']}
df = pd.DataFrame(data)

# 高效解决方案
result_dict = {col: df[col].value_counts().to_dict() for col in df}

print(result_dict)

输出结果：

{'Col1': {1: 2, 2: 2, 3: 1}, 'Col2': {'A': 2, 'B': 2, 'C': 1}}

代码深度解析

让我们逐一分解上述解决方案中的关键部分：

for col in df: 这部分是Python字典推导式的一部分。当对一个Pandas DataFrame进行迭代时，它会默认迭代其列名。因此，col会依次取到'Col1'和'Col2'。
df[col]: 在每次迭代中，df[col]会选择DataFrame中当前列的数据。例如，当col是'Col1'时，df['Col1']会返回一个Pandas Series：
```
0    1
1    2
2    2
3    3
4    1
Name: Col1, dtype: int64
```
.value_counts(): 这是Pandas Series的一个强大方法，用于计算Series中唯一值的出现次数。它返回一个新的Series，其中索引是原始Series中的唯一值，值是这些唯一值出现的次数。对于df['Col1']，它会返回：
```
1    2
2    2
3    1
Name: Col1, dtype: int64
```
对于df['Col2']，它会返回：
```
B    2
A    2
C    1
Name: Col2, dtype: int64
```
.to_dict(): 这是Pandas Series的另一个实用方法，用于将Series转换为Python字典。Series的索引将成为字典的键，Series的值将成为字典的值。例如，df['Col1'].value_counts().to_dict()会生成{1: 2, 2: 2, 3: 1}。
{col: ...}: 最后，字典推导式将列名col作为外部字典的键，将内部字典（由value_counts().to_dict()生成）作为col对应的值，从而构建出最终的嵌套字典。

优势与考量

优势：

简洁性： 代码非常紧凑和易读，一行即可完成复杂的数据转换。
高性能： value_counts()是Pandas内部高度优化的C语言实现，效率远高于显式Python循环。字典推导式本身也比传统for循环构建字典更高效。
Pandas原生： 完全利用了Pandas库的特性，与Pandas数据结构无缝集成。
避免NaN问题： 此方法直接针对每个Series进行计数和字典转换，不会引入unstack()可能带来的NaN值问题。

注意事项：

NaN值处理： value_counts()方法默认会排除NaN值。如果需要统计NaN值，可以设置dropna=False参数，例如df[col].value_counts(dropna=False).to_dict()。
数据类型： value_counts()适用于各种数据类型的Series，无论是数值型、字符串型还是布尔型。
内存使用： 对于非常宽（列数极多）的DataFrame，字典推导式会逐列处理，内存使用相对稳定。但如果单列的唯一值数量巨大，生成的内部字典可能会占用较多内存。

总结

通过本教程，我们学习了如何利用Pandas Series的value_counts()方法和Python字典推导式，以一种高效、简洁且符合Pandas哲学的方式，统计DataFrame中每一列的唯一值并将其转换为一个嵌套字典。这种方法不仅避免了传统循环和复杂聚合操作的弊端，也展现了Pandas在数据处理方面的强大能力和灵活性。掌握这种技巧对于日常数据分析和预处理工作至关重要。

如何正确解析并提取 URL 中的查询参数

如何避免嵌套字典中因对象引用导致的意外值共享

Python 中嵌套字典赋值时的浅拷贝陷阱与正确初始化方法

Python中嵌套字典赋值时的浅拷贝陷阱与正确解决方案

如何在 Chainlit 应用中设置断点进行本地调试

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

641

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

264

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

638

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

565

2023.09.20