Pandas DataFrame分组交错排序教程

聖光之護

发布时间：2025-10-23 12:48:14

936人浏览过

来源于php中文网

原创

Pandas DataFrame分组交错排序教程

本教程旨在解决pandas dataframe中根据指定分组进行行交错排序的需求。我们将深入探讨如何利用`groupby().cumcount()`功能为每个组内的元素生成序列号，并将其作为排序键，从而实现诸如“先取a组第一行，再取b组第一行，然后a组第二行，b组第二行”的交错排列效果。文章将提供详细的代码示例和方法解析，帮助读者高效处理此类数据重排任务。

理解分组交错排序的需求

在数据处理中，我们经常会遇到需要对DataFrame中的数据进行特殊排序的场景。其中一种常见的需求是“分组交错排序”，即从不同的数据组中轮流取出元素进行排列。例如，给定一个包含“Group”和“Score”列的DataFrame：

Group	Score
A	10
A	9
A	8
B	7
B	6
B	5

我们期望的输出是：先取A组的第一个元素，然后B组的第一个元素；接着取A组的第二个元素，然后B组的第二个元素，依此类推。最终得到以下交错排序结果：

Group	Score
A	10
B	7
A	9
B	6
A	8
B	5

这种排序在需要轮流展示不同类别数据或进行特定数据抽样时非常有用。

核心解决方案：利用 groupby().cumcount()

实现分组交错排序的关键在于为每个组内的元素生成一个“组内序号”。Pandas的groupby().cumcount()方法正是为此而生。它会在每个分组内部，为遇到的每个元素按顺序赋予一个从0开始递增的整数。

例如，对于上述DataFrame，如果按“Group”列进行分组并应用cumcount()，结果将是：

Group	Score	cumcount()
A	10	0
A	9	1
A	8	2
B	7	0
B	6	1
B	5	2

可以看到，无论属于哪个组，第一个元素都得到0，第二个元素得到1，以此类推。有了这个“组内序号”，我们就可以将其作为主要的排序键，从而实现交错排序。

实现方法与代码示例

首先，我们创建示例DataFrame：

import pandas as pd
import numpy as np

data = {'Group': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Score': [10, 9, 8, 7, 6, 5]}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

输出：

原始 DataFrame:
  Group  Score
0     A     10
1     A      9
2     A      8
3     B      7
4     B      6
5     B      5

方法一：使用 sort_values 结合 key 参数

pandas.DataFrame.sort_values方法提供了一个key参数，允许我们传入一个函数，该函数将应用于被排序的Series，并返回一个用于实际排序的Series。这里，我们可以利用groupby("Group").cumcount()生成的组内序号作为排序的键。

Reecho睿声

Reecho AI：超拟真语音合成与瞬时语音克隆平台

下载

# 方法一：使用 sort_values 的 key 参数
# key 参数接受一个函数，该函数将应用于被排序的 Series (这里是 Group 列)，
# 并返回一个用于实际排序的 Series。
# 这里的 lambda s: s.groupby(s).cumcount() 表示对 Group 列 s 自身进行分组，
# 然后计算组内序号。
out_method1 = df.sort_values(by="Group", key=lambda s: s.groupby(s).cumcount())

print("\n方法一输出 (sort_values with key):")
print(out_method1)

输出：

方法一输出 (sort_values with key):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A      8
5     B      5

解释：key=lambda s: s.groupby(s).cumcount() 是此方法的精髓。当sort_values对"Group"列进行排序时，它会将df["Group"]这个Series传递给lambda函数（作为s）。s.groupby(s).cumcount()则会基于Group列的当前值（即'A'或'B'）进行分组，并计算每个组内的累积计数。最终，sort_values会根据这个累积计数对原始DataFrame进行排序。

一个稍微不同的写法，但效果相同，且在某些Pandas版本中可能更直观（尽管上述s.groupby(s)更符合key参数的预期）：

# 方法一变体：另一种 key 参数的写法
# 这里 lambda _ 表示我们不关心传入的 Series 本身，
# 而是直接对整个 DataFrame df 进行 groupby 操作来获取 cumcount。
out_method1_alt = df.sort_values("Group", key=lambda _: df.groupby("Group").cumcount())

print("\n方法一变体输出 (sort_values with key, alternative lambda):")
print(out_method1_alt)

这两种key函数的写法都能达到目的。lambda s: s.groupby(s).cumcount()更符合key参数的设计意图，因为它操作的是传入的Series本身。而lambda _: df.groupby("Group").cumcount()则是在key函数内部直接引用了外部的df，其结果独立于key参数接收的Series，但由于cumcount的计算方式，最终排序效果一致。

方法二：使用 iloc 结合 argsort

另一种实现方式是先计算出所有行的最终排序索引，然后使用iloc进行重排。numpy.argsort函数可以返回一个数组，其中包含了将原数组排序后元素在原数组中的索引位置。

# 方法二：使用 iloc 和 argsort
# 先计算出 cumcount 序列，然后使用 argsort 获取排序后的索引，
# 最后用这些索引通过 iloc 对 DataFrame 进行重排。
sort_indices = df.groupby("Group").cumcount().values
out_method2 = df.iloc[np.argsort(sort_indices)]

print("\n方法二输出 (iloc with argsort):")
print(out_method2)

输出：

方法二输出 (iloc with argsort):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A     8
5     B      5

解释：

df.groupby("Group").cumcount()：生成一个Series，其索引与原始DataFrame的索引一致，值为各组的累积计数。
.values：将此Series转换为一个NumPy数组，例如 [0, 1, 2, 0, 1, 2]。
np.argsort(sort_indices)：计算出将 sort_indices 数组排序所需的索引顺序。对于 [0, 1, 2, 0, 1, 2]，argsort会返回 [0, 3, 1, 4, 2, 5]。这意味着：
- 原始索引0（Group A, cumcount 0）应该排在第一位。
- 原始索引3（Group B, cumcount 0）应该排在第二位。
- 原始索引1（Group A, cumcount 1）应该排在第三位。
- 以此类推。
df.iloc[...]：使用这些计算出的索引顺序对DataFrame的行进行重新排列。

总结与注意事项

groupby().cumcount() 的核心作用： 它是实现分组交错排序的关键，能够为每个组内的元素生成唯一的、递增的序号。
sort_values 的 key 参数： 提供了一种非常简洁且Pandas风格的解决方案。它允许在排序前对列值进行转换，而无需创建新的辅助列。这通常是处理此类问题的首选方法。
iloc 与 argsort： 这种方法更底层，通过直接操作索引来重排DataFrame。它展示了如何将NumPy的强大功能与Pandas结合使用。在某些复杂场景下，手动构建索引数组可能提供更大的灵活性。
性能考量： 对于大多数常见的数据规模，上述两种方法的性能差异不大。选择哪种方法主要取决于个人偏好和代码的可读性。通常，sort_values结合key参数在表达意图上更为清晰。
多列排序： 如果除了交错排序外，还需要进一步的二级排序（例如，在同一组内相同cumcount的情况下，按Score降序），可以在sort_values中添加额外的by参数，或在构建排序键时融入多重逻辑。

掌握groupby().cumcount()的用法，不仅能解决分组交错排序的问题，还能在许多其他需要组内序列号的场景中发挥重要作用，是Pandas数据处理中一个非常实用的技巧。

Python map与filter区别_函数式编程解析

Python模块找不到问题_ModuleNotFoundError排查

Python真假值判断规则_truthy与falsy解析

Python JSON数据解析_json模块用法

Python类变量共享问题_类属性修改影响

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

214

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

192

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04