Pandas DataFrame行内重复值的高效识别与提取

霞舞

发布时间：2025-09-14 09:21:00

406人浏览过

来源于php中文网

原创

Pandas DataFrame行内重复值的高效识别与提取

本文详细介绍了如何利用Pandas库高效识别并提取DataFrame中行内存在重复值的行。通过结合duplicated()函数与数据转换技巧，我们将演示如何筛选出包含多个相同值的行，并进一步提取这些行中非重复部分或仅重复值本身，为数据清洗和分析提供实用的解决方案。

在数据处理过程中，我们经常会遇到需要检查dataframe中每行数据是否存在内部重复值的情况。例如，在收集的用户输入或传感器数据中，某一行内的特定列可能意外地包含了相同的值。本教程将指导您如何使用pandas的强大功能来识别这些行，并根据需求提取不同的结果。

示例数据准备

首先，我们创建一个示例DataFrame，其中包含一些行内重复值，以便演示后续的操作。

import numpy as np
import pandas as pd

df = pd.DataFrame([[1,1,2,4,5,6,7,7],
            [2,5,6,7,22,23,34,48],
            [3,3,5,6,7,45,46,48],
            [4,6,7,14,29,32,6,29], # 行内有重复值 6 和 29
            [5,6,7,13,23,33,35,7], # 行内有重复值 7
            [6,1,6,7,8,9,10,8],
            [7,0,2,5,7,19,7,5]], # 行内有重复值 7 和 5
            columns = ['Row_Num', 'Num1','Num2','Num3','Num4','Num5','Num6','Num7'])

print("原始DataFrame:")
print(df)

为了方便后续操作，我们将Row_Num列设置为DataFrame的索引。这样做可以简化行级别的筛选和数据提取。

df_indexed = df.set_index('Row_Num')
print("\n设置为索引后的DataFrame:")
print(df_indexed)

识别行内重复值

Pandas的duplicated()方法通常用于检查Series或DataFrame中的重复项。当应用于DataFrame并设置axis=1时，它可以在行级别上检查每个元素是否是该行中第一次出现的重复值。我们需要结合transform函数来对每一行应用此逻辑。

# 对每一行应用duplicated()，axis=1表示在行方向上检查重复
# lambda x: x.duplicated() 会返回一个布尔Series，标记该行中哪些值是重复的
df_duplicated_flags = df_indexed.transform(lambda x: x.duplicated(), axis=1)

print("\n行内重复值标记 (True表示该值是重复出现):")
print(df_duplicated_flags)

在df_duplicated_flags中，True表示对应位置的值在该行中是重复出现的（非首次出现）。

筛选包含多个重复值的行

我们不仅要识别重复值，还需要筛选出那些包含至少两个重复值的行。这可以通过计算df_duplicated_flags中每行True的数量来实现。

# 计算每行True的数量，即重复值的数量
# 筛选出至少有两个重复值的行
rows_with_multiple_duplicates = df_duplicated_flags.sum(axis=1) >= 2

print("\n筛选条件 (至少有两个重复值的行):")
print(rows_with_multiple_duplicates)

现在，我们可以使用这个布尔Series来筛选出原始DataFrame中符合条件的行。

Seed-Music

字节跳动推出的AI音乐生成与编辑工具

下载

# 提取所有包含多个重复值的行
filtered_df = df_indexed[rows_with_multiple_duplicates]
filtered_duplicated_flags = df_duplicated_flags[rows_with_multiple_duplicates]

print("\n包含多个重复值的原始行:")
print(filtered_df)
print("\n这些行对应的重复值标记:")
print(filtered_duplicated_flags)

提取结果：两种场景

根据需求，我们可能希望得到两种不同的结果：

场景一：提取包含重复值的行，但只保留非重复部分

这种场景下，我们希望得到原始行，但只显示那些在该行中不是重复出现的值。

# 使用 ~filtered_duplicated_flags 来选择非重复值
# dropna(axis=1) 用于移除那些所有值都是NaN的列（即原始列中只包含重复值的部分）
result1 = filtered_df[~filtered_duplicated_flags].dropna(axis=1)

print("\n结果1: 包含重复值的行，但只保留非重复部分:")
print(result1)

场景二：仅提取行内的重复值

这种场景下，我们只关心那些在该行中重复出现的值。

# 使用 filtered_duplicated_flags 来选择重复值
# dropna(axis=1) 用于移除那些所有值都是NaN的列（即原始列中不包含重复值的部分）
result2 = filtered_df[filtered_duplicated_flags].dropna(axis=1)

print("\n结果2: 仅提取行内的重复值:")
print(result2)

如果您需要将索引重置为列，并可能重命名列以匹配特定的输出格式，可以使用reset_index()和rename()方法。

# 示例：将result2的索引重置为列，并重命名列
final_result2 = result2.reset_index()
# 假设您希望列名为 'Row_Num', 'Num1', 'Num2'
# 这里需要根据实际输出的列数进行调整
final_result2.columns = ['Row_Num'] + [f'Num{i}' for i in range(1, final_result2.shape[1])]

print("\n最终结果2 (重置索引并重命名列):")
print(final_result2)

注意事项与最佳实践

列范围选择: 如果您只想在DataFrame的特定子集列中检查重复项（例如，只在'Num1'到'Num5'之间），您可以先选择这些列，然后应用transform方法。

# 例如，只在 'Num1' 到 'Num5' 列中检查重复
subset_cols = ['Num1', 'Num2', 'Num3', 'Num4', 'Num5']
df_subset_duplicated_flags = df_indexed[subset_cols].transform(lambda x: x.duplicated(), axis=1)
# 后续操作类似，但基于 df_subset_duplicated_flags

Row_Num处理: 将Row_Num设置为索引是处理这类问题的常见做法，因为它能清晰地标识每一行。如果最终输出需要Row_Num作为普通列，请记得使用reset_index()。
性能考虑: 对于非常大的DataFrame，transform结合lambda函数通常效率较高，但如果遇到性能瓶颈，可以考虑使用NumPy数组操作或更底层的优化。不过对于大多数Pandas使用场景，当前方法已经足够高效。
重复定义: duplicated()默认将第一次出现的值标记为False，后续的重复值标记为True。如果您需要不同的重复定义（例如，标记所有重复值），可能需要调整逻辑。

总结

本教程详细演示了如何利用Pandas的duplicated()函数和数据转换技巧，有效地识别DataFrame中包含行内重复值的行。通过灵活运用布尔索引和dropna()方法，我们能够精确地提取出符合特定需求的数据，无论是保留非重复部分还是仅提取重复值本身。这些技术在数据清洗、异常检测和特征工程等领域具有广泛的应用价值。

Python中enum枚举类型 Python3中enum模块创建枚举类详解

Python中如何定义枚举类？

如何在 iMX 系列处理器上轻松安装和使用 Node-RED？

介绍 acolor：打印 ANSI 颜色代码的小实用程序

元组之谜：解锁 Python 中的隐藏功能

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

传感器故障解决方法

传感器故障排除指南：识别故障症状（如误读或错误代码）。检查电源和连接（确保连接牢固，无损坏）。校准传感器（遵循制造商说明）。诊断内部故障（目视检查、信号测试、环境影响评估）。更换传感器（选择相同规格，遵循安装说明）。验证修复（检查信号准确性，监测异常行为）。

499

2024.06.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

377

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板