Pandas 数据帧合并与基于值创建新列的实用指南

碧海醫心

发布时间：2025-10-15 13:06:19

855人浏览过

来源于php中文网

原创

pandas 数据帧合并与基于值创建新列的实用指南

本文档旨在提供一个清晰、实用的指南，帮助你使用 Pandas 合并两个数据帧，并根据特定列的值创建新的列。通过`merge()`函数，我们可以高效地将数据帧连接起来，并使用后缀区分相同列名的来源，最终得到满足需求的结果。

使用 Pandas merge() 函数合并数据帧并创建新列

在数据分析和处理中，经常需要将来自不同数据源的数据合并到一个统一的数据帧中。Pandas 库提供了强大的 merge() 函数，可以根据共同的列（或索引）将两个数据帧连接起来。本文将详细介绍如何使用 merge() 函数，并根据特定列的值创建新的列，以满足特定的数据分析需求。

1. 数据准备

首先，我们需要准备两个包含需要合并的数据帧。以下是示例数据帧 df_1 和 df_2：

import pandas as pd

df_1 = pd.DataFrame({
    'ZIP': [93517, 31625, 89311],
    'TERRITORY': [1001, 1002, 1002],
    'SEGMENT': ['CR1', 'CR1', 'CR1']
})

df_2 = pd.DataFrame({
    'ZIP': [93517, 31625, 72844],
    'TERRITORY': [2001, 2002, 2003],
    'SEGMENT': ['CR2', 'CR2', 'CR2']
})

print("df_1:\n", df_1)
print("\ndf_2:\n", df_2)

2. 使用 merge() 函数进行合并

假设 df_1 仅包含 'CR1' segment 的数据，df_2 仅包含 'CR2' segment 的数据。我们可以使用 merge() 函数，通过 'ZIP' 列进行外连接（outer join）：

df_final = df_1.merge(df_2, how='outer', on='ZIP', suffixes=['_CR1', '_CR2'])

print("\ndf_final:\n", df_final)

在上述代码中：

how='outer' 指定进行外连接，这意味着将保留两个数据帧中的所有行，如果某个 ZIP 代码只存在于一个数据帧中，则在另一个数据帧对应的列中填充 NaN 值。
on='ZIP' 指定使用 'ZIP' 列作为连接的键。
suffixes=['_CR1', '_CR2'] 指定在合并后，如果两个数据帧存在相同的列名（除了连接键 'ZIP'），则分别添加 '_CR1' 和 '_CR2' 后缀，以区分这些列的来源。

3. 数据清理与转换

MusicAI

AI音乐生成工具

下载

合并后的数据帧可能包含 NaN 值。我们可以使用 fillna() 函数将 NaN 值替换为 0：

df_final = df_final.fillna(0)

print("\ndf_final after filling NaN:\n", df_final)

此外，我们可能需要对列名进行重命名，以使其更具可读性：

df_final = df_final.rename(columns={
    'TERRITORY_CR1': 'CR1_TERRITORY',
    'TERRITORY_CR2': 'CR2_TERRITORY'
})

print("\ndf_final after renaming columns:\n", df_final)

最后，我们可以选择需要的列，并重新排列列的顺序，以满足最终的需求：

df_final = df_final[['ZIP', 'CR1_TERRITORY', 'CR2_TERRITORY']]

print("\nFinal df_final:\n", df_final)

完整代码示例：

import pandas as pd

# 数据准备
df_1 = pd.DataFrame({
    'ZIP': [93517, 31625, 89311],
    'TERRITORY': [1001, 1002, 1002],
    'SEGMENT': ['CR1', 'CR1', 'CR1']
})

df_2 = pd.DataFrame({
    'ZIP': [93517, 31625, 72844],
    'TERRITORY': [2001, 2002, 2003],
    'SEGMENT': ['CR2', 'CR2', 'CR2']
})

# 合并数据帧
df_final = df_1.merge(df_2, how='outer', on='ZIP', suffixes=['_CR1', '_CR2'])

# 数据清理与转换
df_final = df_final.fillna(0)

df_final = df_final.rename(columns={
    'TERRITORY_CR1': 'CR1_TERRITORY',
    'TERRITORY_CR2': 'CR2_TERRITORY'
})

df_final = df_final[['ZIP', 'CR1_TERRITORY', 'CR2_TERRITORY']]

# 输出结果
print(df_final)

注意事项：

确保用于连接的列（例如 'ZIP'）具有相同的数据类型。如果数据类型不匹配，可能会导致合并失败或产生意外的结果。
根据实际需求选择合适的连接方式（how 参数）。常用的连接方式包括 inner, outer, left, right。
如果两个数据帧中存在多个同名列，需要仔细考虑如何处理这些列。可以使用 suffixes 参数添加后缀，或者在合并后手动重命名列。

总结：

merge() 函数是 Pandas 中一个非常强大的工具，可以用于将来自不同数据源的数据合并到一个统一的数据帧中。通过灵活使用 merge() 函数的各种参数，可以满足各种复杂的数据合并需求。掌握 merge() 函数的使用方法，对于数据分析和处理至关重要。

Python如何管理依赖_pip与poetry对比

Pandas怎么爬网页表格_read_html()提取HTML中的所有table标签

Python命令行工具怎么写_argparse实战

Python怎么处理剪贴板_pyperclip读写系统级剪贴板文字内容实现复制粘贴

Python爬虫怎么抓Ajax请求_Chrome开发者工具Network找接口与XHR过滤

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

272

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板