Pandas两张表内容找不同_compare()比较前后版本数据集异同点

P粉602998670

发布时间：2026-03-10 19:47:03

925人浏览过

来源于php中文网

原创

pandas.dataframe.compare()仅适用于≥1.1.0版本，且要求两表索引、列名、长度完全一致；需先验证版本与结构，合理设置keep_shape和keep_equal，注意列顺序与数据类型兼容性。

pandas两张表内容找不同_compare()比较前后版本数据集异同点

用 `pandas.DataFrame.compare()` 前先确认版本和数据结构

这个方法只在 pandas ≥ 1.1.0 才有，低于这版本会报 AttributeError: 'DataFrame' object has no attribute 'compare'。而且它默认只比较同索引、同列名、同长度的两表——哪怕只是索引顺序不一致，结果也会全是 NaN 或直接报错。

实操建议：

先跑 pandas.__version__ 确认版本；低于 1.1.0 就别折腾，改用 merge(how='outer', indicator=True) 或手动 diff
用 df1.equals(df2) 快速判断是否完全一致，省得白跑 compare()
务必确保 df1.index.equals(df2.index) 和 df1.columns.equals(df2.columns) 都为 True；不满足就先 reindex 或 sort_index(axis=0).sort_index(axis=1)

`compare()` 的 `keep_shape` 和 `keep_equal` 怎么选

这两个参数控制输出“看起来多干净”，但影响信息完整性。默认 keep_shape=False 会删掉所有没差异的行/列，keep_equal=False 会把相同值全换成 NaN——看着清爽，但容易漏掉“某列全相同却该被关注”的情况（比如配置字段本就不该变）。

实操建议：

查数据漂移或 ETL 异常时，设 keep_shape=True, keep_equal=True，保留原始行列结构，靠颜色或 notna() 定位差异
做发布前核对，且确认只有少数字段可能变，可用 keep_equal=False 让结果更紧凑
keep_shape=True 下，空行/空列仍存在，但内容是 NaN；注意别误判成“没变化”

对比结果里 `self` 和 `other` 列方向反了怎么办

结果 DataFrame 的列是 MultiIndex：(col_name, 'self') 和 (col_name, 'other')。新手常以为 'self' 是旧版、'other' 是新版，其实完全取决于你调用时的顺序：df_old.compare(df_new) 中 df_old 是 self，df_new 是 other——名字不带时间含义，纯按参数位置定。

Zyro AI Image Upscaler

Zyro出品的AI图片放大工具

下载

实操建议：

命名变量时就体现意图，比如 before.compare(after)，别用 df1.compare(df2)
需要导出给人看，立刻重命名列：diff.columns = diff.columns.map(lambda x: (x[0], 'before' if x[1]=='self' else 'after'))
用 diff.stack(0).swaplevel().sort_index() 展开成三元组（列名，行索引，self/other），更适合进一步分析

性能差、内存爆了？不是数据大，是 `compare()` 默认太“老实”

它内部会把两表广播对齐再逐元素比，遇到 10w 行 × 100 列的表，中间对象可能膨胀数倍。尤其当两表仅几列不同，却硬要生成完整差异矩阵时，纯属浪费。

实操建议：

先用 df1.columns != df2.columns 和 df1.dtypes != df2.dtypes 快速扫一遍 schema 差异，避免进 compare() 前就翻车
只关心特定列？提前切片：df1[cols].compare(df2[cols])，别喂全量
真要处理大表，放弃 compare()，改用 df1.eq(df2).all().all() 先粗筛，再对 False 列单列计算 df1[col] != df2[col]

最常被忽略的一点：compare() 不支持 category / nullable integer 类型的稳定比较，遇到 Int64Dtype 或混入 pd.NA，结果可能错漏——务必先 astype('object') 或统一转成 string 再比。

相关标签:

pandas 数据类型 String Integer Object if Lambda 数据结构 Nullable Attribute 切片 map 对象 etl

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python面试中常见陷阱题_高频错误解析下一篇：Python怎么画生存曲线_Kaplan-Meier估计与lifelines库实战

作者最新文章

如何在Golang中利用Kind搭建本地K8s集群 Go语言CI环境容器化

2026-03-10 09:23

如何在Golang中利用Cert-Manager管理证书 Go语言TLS自动化配置

2026-03-10 09:25

如何在Golang中通过反射获取接口的底层具体值 Go语言动态类型剥离

2026-03-10 09:25

快手怎么加入粉丝团_快手主播粉丝牌

2026-03-10 09:26

如何在Golang中解决Checksum Mismatch错误 Go语言go.sum校验机制解析

2026-03-10 09:28

mysql如何从5.7升级到8.0_mysql跨版本大升级指南

2026-03-10 09:28

如何在Golang中利用Math/Big进行高精度浮点运算 Go语言金融计算精度

2026-03-10 09:28

如何在Golang中利用SonarQube检查代码质量 Go语言静态扫描流水线

2026-03-10 09:31

CSS如何给元素添加实线边框_通过border-style和width定义css

2026-03-10 09:32

mysql升级后用户权限会丢失吗_mysql权限迁移方案

2026-03-10 09:33

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

336

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

224

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1010

2023.08.02

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

846

2023.08.22

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板