0

0

Pandas教程:高效更新DataFrame子集行值的方法详解

心靈之曲

心靈之曲

发布时间:2025-09-30 14:51:00

|

564人浏览过

|

来源于php中文网

原创

Pandas教程:高效更新DataFrame子集行值的方法详解

本教程详细探讨了如何在Pandas DataFrame中根据另一个DataFrame的匹配条件,高效地更新特定列的子集行值。文章分析了常见的错误操作及其原因,并提供了两种专业且推荐的解决方案:利用merge与combine_first组合操作,以及通过merge、reset_index与fillna实现原地更新,确保数据更新的准确性和效率。

在数据分析和处理中,我们经常需要根据一个dataframe中的数据来更新另一个dataframe中的特定行和列。例如,我们可能有一个主数据集df1,以及一个包含更新值和匹配键的辅助数据集df2。目标是根据df2中存在的键来更新df1中对应行的某一列,同时保留df1中不匹配行的原始值。

考虑以下两个Pandas DataFrame:

import pandas as pd

df1 = pd.DataFrame({'a':(1,2,3,4),'b':(10,20,30,40),'c':(100,200,300,400)})
df2 = pd.DataFrame({'a':(1,2,3),'b':(10,20,30),'c':(1111,2222,3333)})

print("df1:\n", df1)
print("\ndf2:\n", df2)

输出:

飞笔AI
飞笔AI

飞笔AI致力于创作高质量的海报等图像,满足用户个性化设计需求。用户可通过平台便捷地创建各种风格和主题的海报、新媒体素材图等。

下载
df1:
   a   b    c
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400

df2:
   a   b     c
0  1  10  1111
1  2  20  2222
2  3  30  3333

我们的目标是根据df2中'a'和'b'列的组合,更新df1中对应行的'c'列值。对于df1中那些在df2中找不到匹配的行,其'c'列应保持不变。期望的df1结果如下:

   a   b     c
0  1  10  1111
1  2  20  2222
2  3  30  3333
3  4  40   400

理解常见的错误操作

许多初学者可能会尝试使用链式索引和set_index来解决这个问题,例如:

# 错误尝试
df1.set_index(['a', 'b']).loc[df2.set_index(['a', 'b']).index, 'c'] = df2.c
print("错误尝试后的df1:\n", df1)

这种尝试的输出结果会是原始的df1,没有任何改变:

错误尝试后的df1:
   a   b    c
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400

原因分析: 这种操作失败的原因在于df1.set_index(['a', 'b'])会创建一个新的DataFrame(或其副本),而不是返回原始df1的视图。因此,对这个新创建的DataFrame进行的赋值操作,并不会反映到原始的df1上。这是Pandas中一个常见的“链式赋值”问题,通常会导致预期的修改丢失。

解决方案一:使用 merge 和 combine_first 组合操作

当需要生成一个新的DataFrame作为更新结果,或者df1具有默认的整数范围索引时,merge与combine_first的组合是一种简洁而有效的方法。

原理:

  1. 首先,我们通过df1[['a', 'b']].merge(df2, on=['a', 'b'], how='left')将df1的键列与df2进行左连接。这将把df2中匹配行的'c'列值引入,不匹配的行在新的'c'列(来自df2)中将显示为NaN。
  2. 然后,使用combine_first(df1)将合并结果中NaN的位置用df1的原始值进行填充。这确保了在df2中没有匹配的行会保留df1的原始'c'值。
# 解决方案一:使用 merge 和 combine_first
# 注意:此方法会创建一个新的DataFrame作为结果
out_df = df1[['a', 'b']].merge(df2, on=['a', 'b'], how='left').combine_first(df1)
print("使用merge和combine_first后的结果:\n", out_df)

输出:

使用merge和combine_first后的结果:
   a   b       c
0  1  10  1111.0
1  2  20  2222.0
2  3  30  3333.0
3  4  40   400.0

注意事项:

  • 此方法会生成一个新的DataFrame,如果需要原地修改df1,则需要将结果重新赋值给df1。
  • 合并后的'c'列类型可能会变为浮点型(例如1111.0),因为NaN值只能存在于浮点类型中。如果需要整数类型,可能需要后续进行类型转换。

解决方案二:实现原地更新与任意索引处理

当需要直接在df1上进行原地修改,或者df1具有非默认索引时,可以采用merge、reset_index、set_index和fillna的组合。

原理:

  1. 为了在merge操作后能正确地将结果对齐回df1的原始索引,我们首先将df1的索引通过reset_index()转换为一个普通列(通常命名为'index')。
  2. 将df1的键列('a', 'b')与df2进行左连接,获取df2中匹配行的'c'值。
  3. 将合并结果的索引重新设置为原始df1的索引(通过set_index('index'))。
  4. 使用fillna(df1['c'])将合并结果中因不匹配而产生的NaN值,替换回df1原始的'c'列值。
  5. 最后,将处理后的新列赋值回df1的'c'列,实现原地更新。
# 解决方案二:实现原地更新
# 为了避免链式赋值问题,我们创建一个新的列,然后将其赋值回df1的'c'列
df1['c'] = (df1[['a', 'b']].reset_index()
            .merge(df2, on=['a', 'b'], how='left')
            .set_index('index')['c']
            .fillna(df1['c'])
           )
print("原地更新后的df1:\n", df1)

输出:

原地更新后的df1:
   a   b       c
0  1  10  1111.0
1  2  20  2222.0
2  3  30  3333.0
3  4  40   400.0

注意事项:

  • 此方法同样会使'c'列的类型变为浮点型。如果需要保持整数类型,且没有NaN值(即所有行都能找到匹配或原始值不为NaN),可以在最后一步进行类型转换,例如df1['c'] = df1['c'].astype(int)。
  • 此解决方案假设df2中用于匹配的键组合('a'/'b')是唯一的。如果df2中存在重复的键组合,merge操作可能会产生意想不到的结果(例如,重复行),可能需要在使用merge之前对df2进行去重处理(例如df2.drop_duplicates(subset=['a', 'b']))。

总结

在Pandas中更新DataFrame的子集行值时,理解Pandas操作是返回视图还是副本至关重要,以避免链式赋值带来的常见陷阱。merge和combine_first组合提供了一种创建新DataFrame的优雅方式,而结合reset_index、merge、set_index和fillna则能实现高效且灵活的原地更新,适用于更复杂的索引情况。根据具体需求和数据特点选择最合适的策略,能够显著提高数据处理的效率和代码的健壮性。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

53

2025.12.04

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

338

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

542

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

53

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

197

2025.08.29

C++类型转换方式
C++类型转换方式

本专题整合了C++类型转换相关内容,想了解更多相关内容,请阅读专题下面的文章。

299

2025.07.15

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

469

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

279

2023.08.07

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号