Pandas 中保留重复组首次出现、剔除尾部连续重复行的高效方法

霞舞

发布时间：2026-02-21 08:48:01

144人浏览过

来源于php中文网

原创

Pandas 中保留重复组首次出现、剔除尾部连续重复行的高效方法

本文介绍如何在 Pandas DataFrame 中识别并仅保留每组「逻辑重复块」的首次出现部分，剔除尾部连续重复行（忽略唯一标识列如 id），适用于日志去重、会话截断等场景。

本文介绍如何在 pandas dataframe 中识别并仅保留每组「逻辑重复块」的首次出现部分，剔除尾部连续重复行（忽略唯一标识列如 `id`），适用于日志去重、会话截断等场景。

在实际数据分析中，我们常遇到一种特殊重复模式：数据按时间或顺序排列，同一业务逻辑记录（如用户行为、会话状态）可能连续多次出现，而我们希望仅保留该重复块的首次完整出现，后续连续重复块则整体舍弃——这与 drop_duplicates(keep='first') 的全局去重不同，也不同于 duplicated() 的逐行标记。本例即典型：以 name 和 age 为业务键，id 仅为序号；tom/25 在索引 3–4 首次成组出现，之后在索引 7–9 再次连续出现，目标是保留第一次 tom/25 组（行3–4），但只保留第二次 tom/25 组的首行（行7），舍弃其后连续重复行（行8–9）。

实现这一逻辑的关键在于：将连续相同的业务行划分为独立组（run-length grouping），再筛选出非最后一组的所有行。以下是推荐解法：

import pandas as pd

df = pd.DataFrame({
    'id': [1,2,3,4,5,6,7,8,9,10], 
    'name': ['mary','mary','mary','tom','tom','john','sarah','tom','tom','tom'], 
    'age': [30,30,30,25,25,28,36,25,25,25]
})

# 定义用于判断重复的列（排除 id 等唯一标识列）
cols = ['name', 'age']

# 步骤1：生成连续重复组编号
# df[cols].shift() 向下错位 → 与原值比较是否变化 → any(axis=1) 判断任一列变化 → cumsum() 累计求和形成组ID
grp = df[cols].ne(df[cols].shift()).any(axis=1).cumsum()

# 步骤2：构造布尔掩码：当前组不是最大组号（即排除最后一个连续重复块）
cond = grp != grp.max()

# 步骤3：过滤
result = df[cond].reset_index(drop=True)
print(result)

输出：

科大讯飞-AI虚拟主播

科大讯飞推出的移动互联网智能交互平台，为开发者免费提供：涵盖语音能力增强型SDK，一站式人机智能语音交互解决方案，专业全面的移动应用分析；

下载

   id   name  age
0   1   mary   30
1   2   mary   30
2   3   mary   30
3   4    tom   25
4   5    tom   25
5   6   john   28
6   7  sarah   36
7   8    tom   25

✅ 原理详解：

df[cols].ne(df[cols].shift()) 返回布尔 DataFrame，标记每行相对于上一行是否发生变更；
.any(axis=1) 将每行任意列为 True 视为“变化点”；
.cumsum() 对变化点累积计数，使每个连续相同块获得唯一组号（如 mary/30→1，首个 tom/25→2，john/28→3，sarah/36→4，末段 tom/25→5）；
grp != grp.max() 即排除组号为 5 的所有行，精准截断尾部重复块。

⚠️ 注意事项：

此方法依赖数据顺序性，确保业务上连续重复具有语义意义（如时间序列、日志流）；
若需保留尾部块的首行而非整块剔除（如本例中保留行7但不要行8–9），当前解法已满足；若需更复杂策略（如保留每块首行），可改用 groupby(grp).head(1)；
列选择 cols 必须准确反映业务去重维度，避免遗漏关键字段导致误合并；
性能优异，全程向量化操作，适用于百万级数据。

总结：面对「保留首次重复块、截断尾部连续重复」这一非标准去重需求，不应强行套用 drop_duplicates，而应通过 shift + ne + cumsum 构建连续组标识，再结合组号逻辑过滤——这是 Pandas 中处理有序重复模式的惯用范式。

相关标签:

pandas Length 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 中 open() 函数对整数参数的特殊处理机制解析下一篇：暂无

作者最新文章

《轮回之兽》正在进行最后的打磨带来最好体验

2026-02-18 13:22

Java中实现列表间循环减法直至归零的完整教程

2026-02-18 13:28

Go 中全局数据库连接变量的正确声明与跨文件使用方法

2026-02-18 13:29

彩虹主题壁纸如何清理缓存

2026-02-18 13:38

如何在 Go Web 服务中解析并验证 HTTP Basic Auth 凭据

2026-02-18 13:45

塔读小说怎么查看自己的收益

2026-02-18 13:57

Fastify WebSocket 连接在 HTTPS 下失败的解决方案

2026-02-18 14:06

PHP 数据库插入后字段为空的常见原因与修复方案

2026-02-18 14:25

Flexbox 中 textarea 导致意外滚动条的成因与解决方案

2026-02-18 14:55

Go 模板中 {{range .}} 重复渲染问题的根源与正确数据结构设计

2026-02-18 15:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

951

2023.09.19