0

0

数据帧重复记录筛选:高效保留指定数量的最新数据

聖光之護

聖光之護

发布时间:2025-09-05 16:19:01

|

593人浏览过

|

来源于php中文网

原创

数据帧重复记录筛选:高效保留指定数量的最新数据

本教程详细探讨如何在数据帧中高效处理重复记录,并仅保留每组重复项中的指定数量(例如,最新的N条)。文章将介绍两种主流的数据处理工具:Pandas的groupby().tail()方法和PySpark的窗口函数。通过具体的代码示例和解释,帮助读者理解并应用这些技术,以优化数据清洗和预处理流程,特别是在处理大规模数据集时。

在数据分析和处理过程中,我们经常会遇到包含重复记录的数据集。虽然有时需要完全删除重复项,但在某些场景下,我们可能希望保留每组重复项中的特定数量,例如最新的n条记录。本文将深入探讨如何使用python的pandas库和pyspark框架,高效地实现这一目标。

1. 问题场景描述

假设我们有一个包含用户活动的数据帧,其中first_name、last_name和sex组合可能存在重复,但id和country是唯一的。我们的目标是针对每个重复的用户组合(由first_name、last_name和sex定义),只保留其最新的3条记录。这里的“最新”通常根据某个时间戳或递增的ID列来定义。

原始数据帧示例:

id first_name last_name sex country
01 John Doe Male USA
02 John Doe Male Canada
03 John Doe Male Mexico
04 Mark Kay Male Italy
05 John Doe Male Spain
06 Mark Kay Male France
07 John Doe Male Peru
08 Mark Kay Male India
09 Mark Kay Male Laos
10 John Doe Male Benin

期望结果(保留每组重复项的最后3条,基于id排序):

id first_name last_name sex country
05 John Doe Male Spain
06 Mark Kay Male France
07 John Doe Male Peru
08 Mark Kay Male India
09 Mark Kay Male Laos
10 John Doe Male Benin

2. 使用 Pandas 实现:groupby().tail()

对于中小型数据集,Pandas提供了一个非常简洁且高效的方法来解决这个问题,即结合groupby()和tail()。

Devin
Devin

世界上第一位AI软件工程师,可以独立完成各种开发任务。

下载

2.1 核心思想

  1. 定义重复组: 使用groupby()方法根据定义重复的列(例如first_name, last_name, sex)对数据帧进行分组。
  2. 确定“最新”顺序: 在分组之前,确保数据帧已根据表示时间或顺序的列(例如id)进行排序。
  3. 选择最后N条: 对每个分组应用tail(n)方法,它将返回该分组的最后n行。

2.2 示例代码

import pandas as pd

# 示例数据帧
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'first_name': ['John', 'John', 'John', 'Mark', 'John', 'Mark', 'John', 'Mark', 'Mark', 'John'],
    'last_name': ['Doe', 'Doe', 'Doe', 'Kay', 'Doe', 'Kay', 'Doe', 'Kay', 'Kay', 'Doe'],
    'sex': ['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male'],
    'country': ['USA', 'Canada', 'Mexico', 'Italy', 'Spain', 'France', 'Peru', 'India', 'Laos', 'Benin']
}

df = pd.DataFrame(data)

print("原始数据帧:")
print(df)

# 步骤1: 根据 'id' 列对数据帧进行排序,确保“最新”的定义是正确的
# 默认升序,即较大的ID代表更新的记录
df_sorted = df.sort_values(by='id')

# 步骤2: 根据重复键进行分组,并对每个组保留最后3条记录
result_df = df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)

# 步骤3: 重置索引(可选,但通常推荐,使索引连续)
result_df = result_df.reset_index(drop=True)

print("\n处理后的数据帧:")
print(result_df)

2.3 代码解析

  • df.sort_values(by='id'): 这一步至关重要,它确保了在每个分组内部,tail(3)能够正确地选择出“最新”的3条记录。如果id是递增的,那么降序排列后取head(3)也可以达到相同的效果。
  • df_sorted.groupby(['first_name', 'last_name', 'sex']): 根据指定的列组合创建分组对象。
  • .tail(3): 对每个分组应用tail(3)操作,返回每个分组的最后3行。
  • result_df.reset_index(drop=True): 清除旧的索引,并生成一个新的从0开始的连续索引。drop=True表示不将旧索引作为新列保留。

3. 使用 PySpark 实现:窗口函数

对于大规模数据集,PySpark提供了分布式处理能力,其窗口函数是处理此类问题的强大工具。

3.1 核心思想

  1. 定义窗口: 使用Window.partitionBy()定义分组的列,并使用orderBy()定义窗口内的排序规则。
  2. 分配行号: 使用row_number()或rank()等窗口函数为每个分组内的记录分配一个序号。
  3. 筛选: 根据分配的行号筛选出我们需要的N条记录。

3.2 示例代码

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

# 初始化SparkSession
spark = SparkSession.builder.appName("FilterDuplicatesSpark").getOrCreate()

# 示例数据
data = [
    (1, 'John', 'Doe', 'Male', 'USA'),
    (2, 'John', 'Doe', 'Male', 'Canada'),
    (3, 'John', 'Doe', 'Male', 'Mexico'),
    (4, 'Mark', 'Kay', 'Male', 'Italy'),
    (5, 'John', 'Doe', 'Male', 'Spain'),
    (6, 'Mark', 'Kay', 'Male', 'France'),
    (7, 'John', 'Doe', 'Male', 'Peru'),
    (8, 'Mark', 'Kay', 'Male', 'India'),
    (9, 'Mark', 'Kay', 'Male', 'Laos'),
    (10, 'John', 'Doe', 'Male', 'Benin')
]
columns = ['id', 'first_name', 'last_name', 'sex', 'country']
df_spark = spark.createDataFrame(data, columns)

print("原始Spark数据帧:")
df_spark.show()

# 步骤1: 定义窗口规范
# partitionBy: 根据哪些列来分组
# orderBy: 在每个分组内,根据哪些列进行排序。F.desc('id') 表示按id降序,以便row_number为1的是最新的记录。
window_spec = Window.partitionBy('first_name', 'last_name', 'sex').orderBy(F.desc('id'))

# 步骤2: 使用row_number()为每个分组内的记录分配行号
df_with_row_number = df_spark.withColumn('row_number', F.row_number().over(window_spec))

print("\n添加行号后的Spark数据帧:")
df_with_row_number.show()

# 步骤3: 筛选出row_number小于等于3的记录,即每个分组的最新3条
filtered_df = df_with_row_number.filter('row_number <= 3')

# 步骤4: 移除辅助列row_number
result_df_spark = filtered_df.drop('row_number')

print("\n处理后的Spark数据帧:")
result_df_spark.show()

# 停止SparkSession
spark.stop()

3.3 代码解析

  • Window.partitionBy('first_name', 'last_name', 'sex'): 定义了窗口的分组依据,与Pandas的groupby()类似。
  • orderBy(F.desc('id')): 在每个分组内部,根据id列进行降序排序。这意味着id值最大的记录(即最新的记录)将获得最小的行号。
  • F.row_number().over(window_spec): 这是一个窗口函数,它为window_spec定义的每个分组中的每一行分配一个从1开始的连续整数行号。由于我们是按id降序排列,row_number=1对应于该组中id最大的记录。
  • df_with_row_number.filter('row_number
  • filtered_df.drop('row_number'): 移除在处理过程中添加的临时row_number列。

4. 性能与选择考量

  • Pandas groupby().tail():
    • 优点: 代码简洁,易于理解和实现,对于内存中的中小型数据集(通常几十万到几百万行)性能良好。
    • 缺点: 不适用于超出单机内存容量的超大数据集。sort_values和groupby操作在非常大的数据帧上可能会消耗大量内存和CPU。
  • PySpark 窗口函数:
    • 优点: 专为分布式计算设计,能够处理TB级别甚至PB级别的超大规模数据集。通过将计算分布到集群中的多个节点上,避免了单机内存限制。
    • 缺点: 配置和运行Spark环境相对复杂,代码可能比Pandas版本稍长,对小数据集而言,启动SparkSession和分布式开销可能导致性能劣势。

选择建议:

  • 如果数据量较小,能够轻松载入单机内存,且对开发效率有较高要求,优先选择Pandas。
  • 如果数据量巨大,需要分布式处理能力,或者已经在使用Spark生态系统,则PySpark窗口函数是更合适的选择。

5. 注意事项与最佳实践

  • 排序的重要性: 无论是Pandas还是PySpark,确保用于排序的列(如id或时间戳)能够准确反映记录的“新旧”关系是至关重要的。错误的排序会导致筛选出错误的“最新”记录。
  • 重复键的定义: 仔细确定哪些列的组合构成了“重复项”。本例中是first_name, last_name, sex,但实际场景可能有所不同。
  • 内存管理(Pandas): 对于接近内存限制的数据集,可以考虑分块处理或使用Dask等工具。
  • 资源配置(PySpark): Spark作业的性能高度依赖于集群的资源配置(如Executor内存、核心数)。合理配置这些参数可以显著提高效率。
  • 替代窗口函数: 除了row_number(),PySpark还提供了rank()和dense_rank()。rank()在遇到相同排序值的记录时会跳过序号(例如1, 2, 2, 4),而dense_rank()则不会跳过(例如1, 2, 2, 3)。根据具体需求选择合适的函数。在本场景中,row_number()是最直接的选择,因为它为每条记录分配唯一的行号。

6. 总结

本文详细介绍了在Python数据生态中处理数据帧重复记录,并保留指定数量最新记录的两种主要方法:Pandas的groupby().tail()和PySpark的窗口函数。Pandas方案适用于中小型数据集,以其简洁性著称;而PySpark方案则为大规模分布式数据处理提供了高效且可扩展的解决方案。理解这两种方法的原理、适用场景及注意事项,将有助于您在实际数据处理工作中做出明智的技术选择,从而更有效地管理和清洗数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

328

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

235

2023.10.07

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

57

2025.12.04

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

978

2023.11.02

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

143

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

28

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

64

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

4

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号