0

0

掌握Pandas多级索引:如何将分组列设置为DataFrame索引

碧海醫心

碧海醫心

发布时间:2025-11-30 13:35:01

|

150人浏览过

|

来源于php中文网

原创

掌握pandas多级索引:如何将分组列设置为dataframe索引

本教程详细阐述了在Pandas中如何有效地将DataFrame的列(如“Continent”)设置为多级索引,以实现数据按指定列分组并优化显示。文章区分了`groupby`用于聚合和迭代的目的,以及`set_index`用于构建结构化索引的功能。通过实例代码,演示了如何利用`set_index`创建多级索引,并结合`sort_index`确保索引的正确排序和视觉上的分组折叠,从而提升数据分析的效率和可读性。

在Pandas中处理数据时,经常需要根据一个或多个列对数据进行逻辑上的分组。虽然groupby()函数是实现数据聚合和迭代操作的核心工具,但如果目标是直接将某一列或多列作为DataFrame的索引,并希望在显示时呈现出清晰的层级结构,那么set_index()函数则是更直接和高效的选择。本教程将深入探讨这两种方法的区别,并重点讲解如何利用set_index()构建一个结构清晰、易于管理的多级索引。

理解 groupby() 与 set_index() 的区别

在深入实践之前,首先需要明确groupby()和set_index()在Pandas中的不同职责:

  • groupby() 函数:groupby()主要用于将DataFrame按照一个或多个键进行逻辑上的分组,以便后续对每个组执行聚合(如求和、平均值、计数)、转换或过滤操作。它返回一个DataFrameGroupBy对象,这个对象本身并不是一个DataFrame,而是包含了分组信息和用于执行组操作的方法。

    示例:groupby() 用于聚合

    import pandas as pd
    
    # 示例数据
    data = {
        'Country': ['China', 'United States', 'Japan', 'United Kingdom', 'Russian Federation', 'India', 'Germany', 'France', 'Australia', 'South Korea', 'Iran'],
        'Continent': ['Asia', 'North America', 'Asia', 'Europe', 'Europe', 'Asia', 'Europe', 'Europe', 'Australia', 'Asia', 'Asia'],
        'Population': [1367.64, 317.61, 127.40, 63.87, 143.50, 1276.73, 80.36, 63.83, 23.31, 49.80, 77.07]
    }
    df = pd.DataFrame(data)
    
    # 使用groupby计算每个大洲的总人口
    continent_population_sum = df.groupby('Continent')['Population'].sum()
    print("按大洲分组并求和:")
    print(continent_population_sum)
    # 输出示例:
    # Continent
    # Asia             2898.64
    # Australia         23.31
    # Europe           351.56
    # North America    317.61
    # Name: Population, dtype: float64
  • set_index() 函数:set_index()用于将DataFrame中的一个或多个现有列转换为新的索引。当指定多个列时,它会创建一个MultiIndex(多级索引),从而在DataFrame中建立层次化的数据结构。这种操作直接改变了DataFrame的骨架,使得数据可以通过索引进行更灵活、高效的选取和对齐。

构建多级索引以实现分组显示

当我们的目标是让DataFrame以“Continent”作为主索引,并在其下层级展示“Country”及其他相关数据时,set_index()是实现这一目的的正确选择。

假设我们有以下DataFrame,其中包含了国家、大洲和人口数据:

import pandas as pd

data = {
    'Country': ['China', 'United States', 'Japan', 'United Kingdom', 'Russian Federation', 'India', 'Germany', 'France', 'Australia', 'South Korea', 'Iran'],
    'Continent': ['Asia', 'North America', 'Asia', 'Europe', 'Europe', 'Asia', 'Europe', 'Europe', 'Australia', 'Asia', 'Asia'],
    'Population': [1367.64, 317.61, 127.40, 63.87, 143.50, 1276.73, 80.36, 63.83, 23.31, 49.80, 77.07]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df.head())

输出:

灵枢SparkVertex
灵枢SparkVertex

零代码AI应用开发平台

下载
原始DataFrame:
         Country    Continent  Population
0          China         Asia     1367.64
1  United States  North America      317.61
2          Japan         Asia      127.40
3 United Kingdom       Europe       63.87
4 Russian Federation       Europe      143.50

现在,我们希望将'Continent'和'Country'都设置为索引,并让'Continent'作为最高层级。

# 将 'Continent' 和 'Country' 设置为多级索引
df_indexed = df.set_index(['Continent', 'Country'])

# 为了在显示时实现索引的视觉折叠(即相同大洲只显示一次),需要对索引进行排序
df_indexed = df_indexed.sort_index()

print("\n设置多级索引并排序后的DataFrame:")
print(df_indexed)

输出:

设置多级索引并排序后的DataFrame:
                             Population
Continent     Country
Asia          China           1367.64
              India           1276.73
              Iran              77.07
              Japan            127.40
              South Korea       49.80
Australia     Australia         23.31
Europe        France            63.83
              Germany           80.36
              Russian Federation  143.50
              United Kingdom      63.87
North America United States     317.61

从上述输出可以看出,'Continent'现在作为一级索引,'Country'作为二级索引。Pandas在显示时,对于连续相同的上级索引值会自动进行折叠,使得“Asia”、“Australia”、“Europe”和“North America”各自只显示一次,清晰地展现了数据的层次结构。

注意事项与最佳实践

  1. sort_index() 的重要性:sort_index()函数对于多级索引的视觉效果至关重要。Pandas只有在多级索引的所有级别都已排序的情况下,才会自动“折叠”显示重复的索引值。如果索引未排序,即使值相同,也会重复显示,从而失去层次感。

  2. 索引名称: 在set_index()中指定的列名将成为索引的名称。这有助于在后续的数据选取和操作中提高代码的可读性。

  3. 恢复列: 如果需要将索引重新变回普通列,可以使用reset_index()方法。

    df_reset = df_indexed.reset_index()
    print("\n恢复列后的DataFrame:")
    print(df_reset.head())

    输出:

    恢复列后的DataFrame:
      Continent      Country  Population
    0      Asia        China     1367.64
    1      Asia        India     1276.73
    2      Asia         Iran       77.07
    3      Asia        Japan      127.40
    4      Asia  South Korea       49.80
  4. 数据选取: 多级索引使得数据的选取更加灵活和强大。例如,要选取所有亚洲国家的数据:

    asia_data = df_indexed.loc['Asia']
    print("\n选取亚洲所有国家的数据:")
    print(asia_data)

    输出:

    选取亚洲所有国家的数据:
                      Population
    Country
    China               1367.64
    India               1276.73
    Iran                  77.07
    Japan                127.40
    South Korea           49.80

总结

本教程阐明了在Pandas中,当需要将列作为DataFrame的层次化索引时,set_index()是比groupby()更合适的工具。groupby()专注于数据聚合和迭代,而set_index()则直接重构DataFrame的索引结构。通过结合set_index()和sort_index(),我们可以高效地创建和管理多级索引,不仅提升了数据的组织性,也极大地便利了数据的查询和分析。理解并恰当运用这两种方法,将使你在Pandas数据处理中更加游刃有余。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

45

2026.01.06

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

90

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

377

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

64

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6.1万人学习

ASP 教程
ASP 教程

共34课时 | 6万人学习

Vue3.x 工具篇--十天技能课堂
Vue3.x 工具篇--十天技能课堂

共26课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号