Pandas中为每个类别重复显示所有分箱并填充零计数的教程

花韻仙語

发布时间：2025-12-12 21:31:37

516人浏览过

来源于php中文网

原创

Pandas中为每个类别重复显示所有分箱并填充零计数的教程

本教程旨在解决如何在pandas dataframe中，为每个分类组（如“continent”）完整展示所有预定义的分箱（如“rank”）并对那些在原始数据中未出现的分类-分箱组合填充零计数。我们将通过创建辅助列、使用`groupby`进行聚合，并结合`unstack`和`stack`操作来高效实现这一目标，确保数据分析的完整性和可视化的一致性。

在数据分析实践中，我们经常需要对数据进行分类和分箱统计。然而，默认的聚合操作只会显示实际存在的数据组合。当我们需要确保所有预定义的分箱（bins）都呈现在每个类别（category）下，即使某些组合的计数为零时，就需要采取额外的步骤。这对于保持数据结构的一致性、进行可视化或后续分析至关重要。

1. 准备初始数据

首先，我们从一个包含分类（如“Continent”）和已分箱数据（如“Rank”）的DataFrame开始。这个DataFrame反映了每个大陆下不同分箱的原始记录。

import pandas as pd

# 示例原始数据
data = {
    'Continent': [
        'Asia', 'North America', 'Asia', 'Europe', 'Europe',
        'North America', 'Europe', 'Asia', 'Europe', 'Asia',
        'Europe', 'Europe', 'Asia', 'Australia', 'South America'
    ],
    'Rank': [
        '(15.753, 29.227]', '(2.212, 15.753]', '(2.212, 15.753]',
        '(2.212, 15.753]', '(15.753, 29.227]', '(56.174, 69.648]',
        '(15.753, 29.227]', '(2.212, 15.753]', '(15.753, 29.227]',
        '(2.212, 15.753]', '(29.227, 42.701]', '(29.227, 42.701]',
        '(2.212, 15.753]', '(2.212, 15.753]', '(56.174, 69.648]'
    ]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

2. 计算每个（分类，分箱）组合的计数

Pandas的groupby().count()方法默认需要一个列来进行计数。如果直接对多个列进行groupby().count()，它会尝试对所有非分组列进行计数。为了简单地获取每个组合的行数，我们可以添加一个辅助列。

# 添加一个辅助列，用于计数
df['count_col'] = 1

# 按 'Continent' 和 'Rank' 分组并计数
# as_index=False 将分组键保留为列
grouped_counts = df.groupby(['Continent', 'Rank'], as_index=False)['count_col'].count()

# 重命名计数列以便更清晰
grouped_counts = grouped_counts.rename(columns={'count_col': 'Count'})

print("\n按(Continent, Rank)分组后的计数（不含零值）:")
print(grouped_counts)

此时，grouped_counts DataFrame只包含实际在原始数据中出现的Continent-Rank组合及其计数。例如，如果某个大陆的某个分箱没有数据，它将不会出现在这个结果中。

Peppertype.ai

高质量AI内容生成软件，它通过使用机器学习来理解用户的需求。

下载

3. 包含零计数的完整分箱展示

为了让每个大陆都显示所有可能的分箱，即使其计数为零，我们可以利用unstack()和stack()的组合操作。

unstack(): 这个操作可以将指定级别的索引转换为列。当我们将Rank作为索引并unstack()时，它会为每个Continent创建一个行，并将所有Rank值作为列。如果某个Continent-Rank组合不存在，Pandas会默认填充NaN。
fill_value=0: 在unstack()时，我们可以通过fill_value=0参数将所有缺失值（NaN）替换为零。这是实现零计数的关键一步。
stack(): stack()是unstack()的逆操作，它将列索引转换回行索引。经过unstack(fill_value=0)后，stack()会把填充了零的宽格式数据重新转换回长格式，从而包含所有Continent-Rank组合，包括那些原本为零的。
reset_index(): 最后，reset_index()将多级索引转换回常规列，得到一个整洁的DataFrame。

# 使用 unstack 和 stack 来填充零值
# 首先，将 'Continent' 和 'Rank' 设置为索引
df_indexed = df.set_index(['Continent', 'Rank'])

# 添加一个辅助列用于计数，并进行groupby
# 这里直接在设置索引后的DataFrame上进行计数
final_result = df_indexed.groupby(level=['Continent', 'Rank']).size().unstack(fill_value=0).stack().reset_index()

# 重命名计数列
final_result.columns = ['Continent', 'Rank', 'Count']

print("\n包含零计数的完整(Continent, Rank)组合:")
print(final_result)

通过上述步骤，我们成功地为每个大陆展示了所有可能的分箱，并用零填充了那些在原始数据中没有记录的组合。

注意事项与总结

辅助计数列或.size(): 在groupby()之后，可以使用.count()（如果DataFrame中有其他列）或.size()（直接计算分组大小）来获取每个分组的行数。在本教程的最终解决方案中，我们使用了.size()，它更简洁地计算了每个分组的大小。
unstack()的fill_value: fill_value参数是确保零值填充的关键。没有它，unstack()会将不存在的组合填充为NaN，stack()后这些NaN仍然会存在或被丢弃（取决于dropna参数）。
灵活性: 这种groupby().unstack().stack()的模式在Pandas中非常强大，不仅可以用于计数，还可以用于其他聚合函数（如求和、平均值等），以确保在多维度分析中数据的完整性。

掌握这种技术，能够帮助数据分析师和工程师在处理分类和分箱数据时，生成更全面、更易于理解和分析的报告。

使用 Python 验证 Go 模块的 go.mod 文件哈希

Go模块校验和的Python实现指南

使用 Pydantic 精确描述 Python 复杂字典结构

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板