Pandas数据框多列优先级排名与同分处理教程

聖光之護

发布时间：2025-12-12 17:59:32

413人浏览过

来源于php中文网

原创

Pandas数据框多列优先级排名与同分处理教程

本教程详细介绍了如何在pandas数据框中实现基于多列的优先级排名，特别是如何处理同分情况。通过采用加权和方法，将次要和再次要的排名依据列赋予极小的权重，并将其叠加到主要排名依据列上，从而创建出一个综合评分。随后，利用pandas的`rank()`函数结合`method='dense'`和`ascending=false`参数，即可生成满足多级同分处理逻辑的排名结果，确保排名准确性和一致性。

引言：多列优先级排名挑战

在数据分析中，我们经常需要对数据进行排名。然而，简单的单列排名往往无法满足复杂业务逻辑的需求，特别是当主要排名依据列存在相同值（同分）时。此时，我们需要引入次要、甚至再次要的列作为“破同分”规则。例如，我们可能需要首先根据“总分”进行排名，如果总分相同，则根据“表现分”排名，如果表现分也相同，则再根据“努力分”排名。本教程将详细讲解如何使用Pandas高效地实现这种多级优先级排名和同分处理。

核心方法：加权和与综合评分

解决多列优先级排名问题的关键思想是，将所有参与排名的列（包括主要排名列和所有破同分列）整合为一个单一的、能够反映所有优先级顺序的综合评分。我们可以通过给破同分列赋予极小的权重，并将其加到主要排名列上来实现这一点。这样，当主要排名列的值不同时，其差异远大于破同分列加权后的影响，因此主要排名顺序不会被改变；而当主要排名列的值相同时，破同分列加权后的微小差异就足以决定最终的相对顺序。

示例数据准备

首先，我们创建一个示例Pandas DataFrame，其中包含需要排名的分数：

import pandas as pd

df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始DataFrame:")
print(df)

我们的目标是根据Total Score进行排名，如果Total Score相同，则根据EScore排名；如果EScore也相同，则根据DScore排名。所有排名均为降序，且同分项（即使是多列同分）应获得相同的排名。

实现步骤

赋予权重并创建综合评分： 为了实现多级破同分，我们将EScore和DScore分别乘以一个足够小的权重，然后加到Total Score上。权重的选择至关重要，它必须足够小，以确保次要列的加权值不足以改变主要列的排名顺序，除非主要列的值完全相同。
- EScore的权重：例如0.01。这意味着EScore的最大可能加权值（例如10 * 0.01 = 0.1）远小于Total Score的最小可能差异（通常为1）。
- DScore的权重：例如0.0001。这意味着DScore的最大可能加权值（例如5 0.0001 = 0.0005）远小于EScore加权后的最小可能差异（例如1 0.01 = 0.01）。
通过这种方式，我们创建了一个新的、包含了所有优先级信息的浮点数系列。

靠岸学术
一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载
计算排名： 使用Pandas DataFrame的.rank()方法来计算基于这个综合评分的排名。
- ascending=False：表示降序排名，即分数越高排名越靠前。
- method='dense'：处理同分情况。dense方法会为同分项分配相同的排名，并且下一个不同的值会获得连续的排名（例如，1, 2, 2, 3）。这符合我们的需求，即完全相同的优先级组合应获得相同的排名。
- .astype('int')：将最终的浮点数排名转换为整数类型，使结果更整洁。

完整代码示例

import pandas as pd

df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

# 赋予权重并创建综合评分，然后计算排名
df['Rank'] = (
    df['Total Score']
    .add(df['EScore'].mul(0.01))     # EScore作为第一级破同分，权重0.01
    .add(df['DScore'].mul(0.0001))   # DScore作为第二级破同分，权重0.0001
    .rank(ascending=False, method='dense')
    .astype('int')
)

print("\n带有排名的DataFrame:")
print(df)

输出结果：

原始DataFrame:
   DScore  EScore  Total Score
0       2       6           17
1       2       7           15
2       4       9           23
3       4       9           23
4       5      10           25

带有排名的DataFrame:
   DScore  EScore  Total Score  Rank
0       2       6           17     3
1       2       7           15     4
2       4       9           23     2
3       4       9           23     2
4       5      10           25     1

从结果可以看出，Total Score为23的两个条目（索引2和3）都获得了排名2。这是因为它们的Total Score和EScore都相同（23和9），因此根据我们的破同分规则，它们被视为完全相同，并获得了相同的排名。其他条目也按照预期进行了排名。

关键注意事项与最佳实践

权重选择： 这是此方法中最关键的一点。权重的选择必须保证：
- 次要列的最大加权值，小于其上一级主要列的最小可能差异。
- 例如，如果Total Score的最小差异是1，那么EScore的最大值乘以其权重（例如max(EScore) * weight_EScore）必须小于1。
- 同理，如果EScore的最小差异是1，那么DScore的最大值乘以其权重（例如max(DScore) * weight_DScore）必须小于weight_EScore。
- 在实际应用中，权重的具体数值需要根据数据集的特点（如列值的范围、最小差异）进行调整。一个经验法则是，权重应该比上一级列的最小有效差异小一个数量级或更多。
rank()方法的选择：
- method='dense'：推荐用于本场景，它为同分项分配相同的排名，且后续排名是连续的。
- 其他方法如'average'（默认，同分项取平均排名）、'min'（同分项取最小排名）、'max'（同分项取最大排名）或'first'（按出现顺序分配排名）可能不符合多级破同分的语义。
数据类型： 确保最终的Rank列转换为整数类型，以保持结果的整洁性。
性能考量： 对于非常大的数据集，这种加权和的方法通常比多次排序（sort_values）然后分组排名（groupby().rank()）更简洁高效，因为它只涉及一次复合值的计算和一次排名操作。

总结

通过巧妙地运用加权和来创建综合评分，并结合Pandas rank()函数的强大功能，我们可以优雅且高效地解决数据框中多列优先级排名和复杂同分处理的问题。理解权重选择的原理是掌握此方法的关键，它能确保排名结果准确反映预设的优先级逻辑。此方法在需要精确控制排名顺序和同分处理规则的各种数据分析场景中都具有广泛的应用价值。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1051

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

615

2024.08.29