数据帧重复记录筛选：高效保留指定数量的最新数据

聖光之護

发布时间：2025-09-05 16:19:01

593人浏览过

来源于php中文网

原创

数据帧重复记录筛选：高效保留指定数量的最新数据

本教程详细探讨如何在数据帧中高效处理重复记录，并仅保留每组重复项中的指定数量（例如，最新的N条）。文章将介绍两种主流的数据处理工具：Pandas的groupby().tail()方法和PySpark的窗口函数。通过具体的代码示例和解释，帮助读者理解并应用这些技术，以优化数据清洗和预处理流程，特别是在处理大规模数据集时。

在数据分析和处理过程中，我们经常会遇到包含重复记录的数据集。虽然有时需要完全删除重复项，但在某些场景下，我们可能希望保留每组重复项中的特定数量，例如最新的n条记录。本文将深入探讨如何使用python的pandas库和pyspark框架，高效地实现这一目标。

1. 问题场景描述

假设我们有一个包含用户活动的数据帧，其中first_name、last_name和sex组合可能存在重复，但id和country是唯一的。我们的目标是针对每个重复的用户组合（由first_name、last_name和sex定义），只保留其最新的3条记录。这里的“最新”通常根据某个时间戳或递增的ID列来定义。

原始数据帧示例：

id	first_name	last_name	sex	country
01	John	Doe	Male	USA
02	John	Doe	Male	Canada
03	John	Doe	Male	Mexico
04	Mark	Kay	Male	Italy
05	John	Doe	Male	Spain
06	Mark	Kay	Male	France
07	John	Doe	Male	Peru
08	Mark	Kay	Male	India
09	Mark	Kay	Male	Laos
10	John	Doe	Male	Benin

期望结果（保留每组重复项的最后3条，基于id排序）：

id	first_name	last_name	sex	country
05	John	Doe	Male	Spain
06	Mark	Kay	Male	France
07	John	Doe	Male	Peru
08	Mark	Kay	Male	India
09	Mark	Kay	Male	Laos
10	John	Doe	Male	Benin

2. 使用 Pandas 实现：groupby().tail()

对于中小型数据集，Pandas提供了一个非常简洁且高效的方法来解决这个问题，即结合groupby()和tail()。

Machine Translation

聚合多个来源的AI翻译

下载

2.1 核心思想

定义重复组： 使用groupby()方法根据定义重复的列（例如first_name, last_name, sex）对数据帧进行分组。
确定“最新”顺序： 在分组之前，确保数据帧已根据表示时间或顺序的列（例如id）进行排序。
选择最后N条： 对每个分组应用tail(n)方法，它将返回该分组的最后n行。

2.2 示例代码

import pandas as pd

# 示例数据帧
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'first_name': ['John', 'John', 'John', 'Mark', 'John', 'Mark', 'John', 'Mark', 'Mark', 'John'],
    'last_name': ['Doe', 'Doe', 'Doe', 'Kay', 'Doe', 'Kay', 'Doe', 'Kay', 'Kay', 'Doe'],
    'sex': ['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male'],
    'country': ['USA', 'Canada', 'Mexico', 'Italy', 'Spain', 'France', 'Peru', 'India', 'Laos', 'Benin']
}

df = pd.DataFrame(data)

print("原始数据帧:")
print(df)

# 步骤1: 根据 'id' 列对数据帧进行排序，确保“最新”的定义是正确的
# 默认升序，即较大的ID代表更新的记录
df_sorted = df.sort_values(by='id')

# 步骤2: 根据重复键进行分组，并对每个组保留最后3条记录
result_df = df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)

# 步骤3: 重置索引（可选，但通常推荐，使索引连续）
result_df = result_df.reset_index(drop=True)

print("\n处理后的数据帧:")
print(result_df)

2.3 代码解析

df.sort_values(by='id'): 这一步至关重要，它确保了在每个分组内部，tail(3)能够正确地选择出“最新”的3条记录。如果id是递增的，那么降序排列后取head(3)也可以达到相同的效果。
df_sorted.groupby(['first_name', 'last_name', 'sex']): 根据指定的列组合创建分组对象。
.tail(3): 对每个分组应用tail(3)操作，返回每个分组的最后3行。
result_df.reset_index(drop=True): 清除旧的索引，并生成一个新的从0开始的连续索引。drop=True表示不将旧索引作为新列保留。

3. 使用 PySpark 实现：窗口函数

对于大规模数据集，PySpark提供了分布式处理能力，其窗口函数是处理此类问题的强大工具。

3.1 核心思想

定义窗口： 使用Window.partitionBy()定义分组的列，并使用orderBy()定义窗口内的排序规则。
分配行号： 使用row_number()或rank()等窗口函数为每个分组内的记录分配一个序号。
筛选： 根据分配的行号筛选出我们需要的N条记录。

3.2 示例代码

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

# 初始化SparkSession
spark = SparkSession.builder.appName("FilterDuplicatesSpark").getOrCreate()

# 示例数据
data = [
    (1, 'John', 'Doe', 'Male', 'USA'),
    (2, 'John', 'Doe', 'Male', 'Canada'),
    (3, 'John', 'Doe', 'Male', 'Mexico'),
    (4, 'Mark', 'Kay', 'Male', 'Italy'),
    (5, 'John', 'Doe', 'Male', 'Spain'),
    (6, 'Mark', 'Kay', 'Male', 'France'),
    (7, 'John', 'Doe', 'Male', 'Peru'),
    (8, 'Mark', 'Kay', 'Male', 'India'),
    (9, 'Mark', 'Kay', 'Male', 'Laos'),
    (10, 'John', 'Doe', 'Male', 'Benin')
]
columns = ['id', 'first_name', 'last_name', 'sex', 'country']
df_spark = spark.createDataFrame(data, columns)

print("原始Spark数据帧:")
df_spark.show()

# 步骤1: 定义窗口规范
# partitionBy: 根据哪些列来分组
# orderBy: 在每个分组内，根据哪些列进行排序。F.desc('id') 表示按id降序，以便row_number为1的是最新的记录。
window_spec = Window.partitionBy('first_name', 'last_name', 'sex').orderBy(F.desc('id'))

# 步骤2: 使用row_number()为每个分组内的记录分配行号
df_with_row_number = df_spark.withColumn('row_number', F.row_number().over(window_spec))

print("\n添加行号后的Spark数据帧:")
df_with_row_number.show()

# 步骤3: 筛选出row_number小于等于3的记录，即每个分组的最新3条
filtered_df = df_with_row_number.filter('row_number <= 3')

# 步骤4: 移除辅助列row_number
result_df_spark = filtered_df.drop('row_number')

print("\n处理后的Spark数据帧:")
result_df_spark.show()

# 停止SparkSession
spark.stop()

3.3 代码解析

Window.partitionBy('first_name', 'last_name', 'sex'): 定义了窗口的分组依据，与Pandas的groupby()类似。
orderBy(F.desc('id')): 在每个分组内部，根据id列进行降序排序。这意味着id值最大的记录（即最新的记录）将获得最小的行号。
F.row_number().over(window_spec): 这是一个窗口函数，它为window_spec定义的每个分组中的每一行分配一个从1开始的连续整数行号。由于我们是按id降序排列，row_number=1对应于该组中id最大的记录。
df_with_row_number.filter('row_number <= 3'): 筛选出每个分组中行号为1、2、3的记录，即最新的3条。
filtered_df.drop('row_number'): 移除在处理过程中添加的临时row_number列。

4. 性能与选择考量

Pandas groupby().tail()：
- 优点： 代码简洁，易于理解和实现，对于内存中的中小型数据集（通常几十万到几百万行）性能良好。
- 缺点： 不适用于超出单机内存容量的超大数据集。sort_values和groupby操作在非常大的数据帧上可能会消耗大量内存和CPU。
PySpark 窗口函数：
- 优点： 专为分布式计算设计，能够处理TB级别甚至PB级别的超大规模数据集。通过将计算分布到集群中的多个节点上，避免了单机内存限制。
- 缺点： 配置和运行Spark环境相对复杂，代码可能比Pandas版本稍长，对小数据集而言，启动SparkSession和分布式开销可能导致性能劣势。

选择建议：

如果数据量较小，能够轻松载入单机内存，且对开发效率有较高要求，优先选择Pandas。
如果数据量巨大，需要分布式处理能力，或者已经在使用Spark生态系统，则PySpark窗口函数是更合适的选择。

5. 注意事项与最佳实践

排序的重要性： 无论是Pandas还是PySpark，确保用于排序的列（如id或时间戳）能够准确反映记录的“新旧”关系是至关重要的。错误的排序会导致筛选出错误的“最新”记录。
重复键的定义： 仔细确定哪些列的组合构成了“重复项”。本例中是first_name, last_name, sex，但实际场景可能有所不同。
内存管理（Pandas）： 对于接近内存限制的数据集，可以考虑分块处理或使用Dask等工具。
资源配置（PySpark）： Spark作业的性能高度依赖于集群的资源配置（如Executor内存、核心数）。合理配置这些参数可以显著提高效率。
替代窗口函数： 除了row_number()，PySpark还提供了rank()和dense_rank()。rank()在遇到相同排序值的记录时会跳过序号（例如1, 2, 2, 4），而dense_rank()则不会跳过（例如1, 2, 2, 3）。根据具体需求选择合适的函数。在本场景中，row_number()是最直接的选择，因为它为每条记录分配唯一的行号。

6. 总结

本文详细介绍了在Python数据生态中处理数据帧重复记录，并保留指定数量最新记录的两种主要方法：Pandas的groupby().tail()和PySpark的窗口函数。Pandas方案适用于中小型数据集，以其简洁性著称；而PySpark方案则为大规模分布式数据处理提供了高效且可扩展的解决方案。理解这两种方法的原理、适用场景及注意事项，将有助于您在实际数据处理工作中做出明智的技术选择，从而更有效地管理和清洗数据。

Python 多设备并行控制 Android（真机/模拟器）的高效实践方案

Python asyncio怎么用_async def定义协程函数与await挂起等待异步操作解析

Python匿名函数怎么写_lambda表达式与高阶函数结合

正则表达式中贪婪匹配与回溯陷阱：如何精准捕获“c+后接至少3个b”的最长前缀

Python怎么在服务器上运行_CentOS/宝塔面板Python环境配置

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

413

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

252

2023.10.07

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1007

2023.11.02

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

377

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板