0

0

Pandas两张表内容找不同_compare()比较前后版本数据集异同点

P粉602998670

P粉602998670

发布时间:2026-03-10 19:47:03

|

925人浏览过

|

来源于php中文网

原创

pandas.dataframe.compare()仅适用于≥1.1.0版本,且要求两表索引、列名、长度完全一致;需先验证版本与结构,合理设置keep_shape和keep_equal,注意列顺序与数据类型兼容性。

pandas两张表内容找不同_compare()比较前后版本数据集异同点

pandas.DataFrame.compare() 前先确认版本和数据结构

这个方法只在 pandas ≥ 1.1.0 才有,低于这版本会报 AttributeError: 'DataFrame' object has no attribute 'compare'。而且它默认只比较同索引、同列名、同长度的两表——哪怕只是索引顺序不一致,结果也会全是 NaN 或直接报错。

实操建议:

  • 先跑 pandas.__version__ 确认版本;低于 1.1.0 就别折腾,改用 merge(how='outer', indicator=True) 或手动 diff
  • df1.equals(df2) 快速判断是否完全一致,省得白跑 compare()
  • 务必确保 df1.index.equals(df2.index)df1.columns.equals(df2.columns) 都为 True;不满足就先 reindexsort_index(axis=0).sort_index(axis=1)

compare()keep_shapekeep_equal 怎么选

这两个参数控制输出“看起来多干净”,但影响信息完整性。默认 keep_shape=False 会删掉所有没差异的行/列,keep_equal=False 会把相同值全换成 NaN——看着清爽,但容易漏掉“某列全相同却该被关注”的情况(比如配置字段本就不该变)。

实操建议:

  • 查数据漂移或 ETL 异常时,设 keep_shape=True, keep_equal=True,保留原始行列结构,靠颜色或 notna() 定位差异
  • 做发布前核对,且确认只有少数字段可能变,可用 keep_equal=False 让结果更紧凑
  • keep_shape=True 下,空行/空列仍存在,但内容是 NaN;注意别误判成“没变化”

对比结果里 selfother 列方向反了怎么办

结果 DataFrame 的列是 MultiIndex:(col_name, 'self')(col_name, 'other')。新手常以为 'self' 是旧版、'other' 是新版,其实完全取决于你调用时的顺序:df_old.compare(df_new)df_oldselfdf_newother——名字不带时间含义,纯按参数位置定。

Zyro AI Image Upscaler
Zyro AI Image Upscaler

Zyro出品的AI图片放大工具

下载

实操建议:

  • 命名变量时就体现意图,比如 before.compare(after),别用 df1.compare(df2)
  • 需要导出给人看,立刻重命名列:diff.columns = diff.columns.map(lambda x: (x[0], 'before' if x[1]=='self' else 'after'))
  • diff.stack(0).swaplevel().sort_index() 展开成三元组(列名,行索引,self/other),更适合进一步分析

性能差、内存爆了?不是数据大,是 compare() 默认太“老实”

它内部会把两表广播对齐再逐元素比,遇到 10w 行 × 100 列的表,中间对象可能膨胀数倍。尤其当两表仅几列不同,却硬要生成完整差异矩阵时,纯属浪费。

实操建议:

  • 先用 df1.columns != df2.columnsdf1.dtypes != df2.dtypes 快速扫一遍 schema 差异,避免进 compare() 前就翻车
  • 只关心特定列?提前切片:df1[cols].compare(df2[cols]),别喂全量
  • 真要处理大表,放弃 compare(),改用 df1.eq(df2).all().all() 先粗筛,再对 False 列单列计算 df1[col] != df2[col]

最常被忽略的一点:compare() 不支持 category / nullable integer 类型的稳定比较,遇到 Int64Dtype 或混入 pd.NA,结果可能错漏——务必先 astype('object') 或统一转成 string 再比。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

78

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

12

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

336

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

224

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1010

2023.08.02

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

846

2023.08.22

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

215

2023.09.15

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号