如何基于共同键行级合并并累加两个 DataFrame 的数值列

花韻仙語

发布时间：2026-02-26 11:11:02

179人浏览过

来源于php中文网

原创

如何基于共同键行级合并并累加两个 DataFrame 的数值列

本文介绍如何在 pandas 中高效实现“按指定列（如 'name'）对齐行，仅对双方共有的键进行数值列累加”，避免新增行或覆盖非匹配项，适用于数据聚合、增量更新等典型场景。

本文介绍如何在 pandas 中高效实现“按指定列（如 'name'）对齐行，仅对双方共有的键进行数值列累加”，避免新增行或覆盖非匹配项，适用于数据聚合、增量更新等典型场景。

在数据分析实践中，常需将新采集的数据（如 df2）有选择性地合并到已有数据集（df1）中：仅当两表在关键标识列（如 'name'）上存在相同值时，才对数值列执行逐行累加；不匹配的行应被忽略，原始 df1 中独有的行则保持不变。这不同于 merge 或 concat 的默认行为，也不同于 update 的覆盖逻辑——核心诉求是「条件性行级数值叠加」。

最简洁、高效且符合 Pandas 惯用法的解决方案如下：

Descript

一个多功能的音频和视频编辑引擎

下载

import pandas as pd

df1 = pd.DataFrame([
    {'name': 'Ben', 'goals': 1, 'minutes': 90},
    {'name': 'Bob', 'goals': 1, 'minutes': 64},
    {'name': 'Kevin', 'goals': 1, 'minutes': 90}
])

df2 = pd.DataFrame([
    {'name': 'Ben', 'goals': 1, 'minutes': 88},
    {'name': 'Kevin', 'goals': 1, 'minutes': 3},
    {'name': 'Steve', 'goals': 1, 'minutes': 13}
])

# ✅ 关键步骤：过滤 + 合并 + 分组累加 + 重置索引
result = (
    pd.concat([df1, df2.loc[df2["name"].isin(df1["name"])]])
    .groupby("name", as_index=False)
    .sum()
)

运行后得到目标结果： | name | goals | minutes | |-------|-------|---------| | Ben | 2 | 178 | | Bob | 1 | 64 | | Kevin | 2 | 93 |

✅ 为什么这个方案更优？

语义清晰：df2.loc[df2["name"].isin(df1["name"])] 显式筛选出仅与 df1 共享 name 的记录，杜绝 Steve 等无关行干扰；
向量化高效：全程避免 for 循环和 iterrows()，规避了低效的逐行操作与隐式类型转换风险（如原代码中 str(row['name']) 可能引发意外）；
自动对齐与累加：groupby("name").sum() 天然按 name 分组，并对所有数值列（goals, minutes）执行求和，无需手动索引定位或列切片；
保留原始结构：as_index=False 确保 name 作为普通列而非索引，reset_index() 在此非必需（已由 as_index=False 保证），代码更精炼。

⚠️ 注意事项

所有参与累加的列必须为数值类型（int/float），否则 sum() 会跳过或报错。若含非数值列（如备注文本），建议提前 select_dtypes(include='number') 过滤，或使用 agg() 自定义各列聚合方式；
若需保留其他非数值列（如 team），且其值在同名行中一致，可改用 .agg({'goals': 'sum', 'minutes': 'sum', 'team': 'first'})；
此方法默认对 name 唯一性无强假设；若 df1 或 df2 中存在重复 name，groupby.sum() 会将其全部合并——如需严格一对一更新，请先去重或改用 map + add 方案。

该模式是 Pandas 数据聚合的经典范式，兼顾可读性、性能与鲁棒性，推荐作为同类任务的标准解法。

相关标签:

pandas Float for include int 循环值类型隐式类型转换切片 map 类型转换 number 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Pandas 中基于数字集合实现姓名对的多对多匹配教程下一篇：暂无

作者最新文章

Django项目创建后文件不可见？正确路径与环境配置指南

2026-02-25 15:52

Go Protobuf 导入路径迁移与 protoc-gen-go 升级指南

2026-02-25 16:23

Go 中结构体指针接收者自动解引用机制详解

2026-02-25 16:26

外媒评《生化危机》系列最佳！《生化8》仅排第七

2026-02-25 16:29

如何通过事件监听器实现按钮点击显示/隐藏表格的稳定交互

2026-02-25 16:49

如何使用 Mutiny 实现服务的顺序调用

2026-02-25 17:00

开年爆款？多人合作派对游戏《超级高尔夫大乱斗》发售两天销量突破十万套

2026-02-25 17:10

猫神牧场流派攻略及注意事项猫神牧场流派介绍

2026-02-25 17:32

Go模板中实现跨页面复用的头部与底部布局

2026-02-25 17:38

勇者远征什么职业厉害勇者远征职业推荐选择攻略

2026-02-25 17:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

592

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

105

2025.10.23

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

850

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

585

2024.08.29