Pandas 数据框合并与基于值创建新列的实践指南

心靈之曲

发布时间：2025-10-14 09:21:31

302人浏览过

来源于php中文网

原创

pandas 数据框合并与基于值创建新列的实践指南

本文旨在指导读者如何使用 Pandas 库合并两个数据框，并根据特定列的值动态创建新的列。我们将通过一个实际案例，演示如何根据 `ZIP` 列合并数据框，并基于 `SEGMENT` 列的值，将 `TERRITORY` 列的值填充到新的列中，最终生成包含 `CR1_TERRITORY` 和 `CR2_TERRITORY` 列的合并数据框。

Pandas 库提供了强大的数据处理能力，其中数据框（DataFrame）的合并是常见的操作。本文将介绍如何使用 merge() 函数合并两个数据框，并根据特定条件创建新的列。我们将以一个实际的例子来说明，假设我们有两个数据框 df_1 和 df_2，它们都包含 ZIP，TERRITORY 和 SEGMENT 列。我们的目标是将这两个数据框合并，并基于 SEGMENT 列的值（CR1 和 CR2），创建新的 CR1_TERRITORY 和 CR2_TERRITORY 列。

首先，我们创建示例数据框：

import pandas as pd

df_1 = pd.DataFrame({
    'ZIP': [93517, 31625, 89311],
    'TERRITORY': [1001, 1002, 1002],
    'SEGMENT': ['CR1', 'CR1', 'CR1']
})

df_2 = pd.DataFrame({
    'ZIP': [93517, 31625, 72844],
    'TERRITORY': [2001, 2002, 2003],
    'SEGMENT': ['CR2', 'CR2', 'CR2']
})

接下来，我们使用 merge() 函数将这两个数据框合并。merge() 函数的 how 参数指定了合并的方式，这里我们使用 outer 连接，这意味着我们将保留两个数据框中的所有行，即使它们在另一个数据框中没有匹配的 ZIP 值。on 参数指定了用于合并的列，这里我们使用 ZIP 列。suffix 参数用于为合并后的列添加后缀，以区分来自不同数据框的列。

df_final = df_1.merge(df_2, how='outer', on='ZIP', suffixes=['_CR1', '_CR2'])

上述代码将生成一个包含所有 ZIP 值的数据框，其中 TERRITORY_CR1 列包含来自 df_1 的 TERRITORY 值，TERRITORY_CR2 列包含来自 df_2 的 TERRITORY 值。如果某个 ZIP 值只存在于一个数据框中，则对应的 TERRITORY 列的值将为 NaN。

为了得到最终的结果，我们需要重命名列，并将 NaN 值替换为 0。

PixVerse

PixVerse是一款强大的AI视频生成工具，可以轻松地将多种输入转化为令人惊叹的视频。

下载

df_final = df_final.rename(columns={'TERRITORY_CR1': 'CR1_TERRITORY', 'TERRITORY_CR2': 'CR2_TERRITORY'})
df_final = df_final.fillna(0)

最后，我们可以打印 df_final 数据框，查看结果。

print(df_final)

输出结果如下：

     ZIP  TERRITORY_CR1 SEGMENT_CR1  TERRITORY_CR2 SEGMENT_CR2
0  93517         1001.0         CR1         2001.0         CR2
1  31625         1002.0         CR1         2002.0         CR2
2  89311         1002.0         CR1            0.0           0
3  72844            0.0           0         2003.0         CR2

注意事项：

merge() 函数有多种连接方式（inner, outer, left, right），选择合适的连接方式取决于你的具体需求。
如果你的数据框中包含重复的列名，merge() 函数会自动添加后缀以区分它们。你可以使用 suffixes 参数自定义后缀。
在合并数据框之前，请确保用于合并的列的数据类型一致。
在实际应用中，你可能需要根据更复杂的条件创建新的列。你可以使用 Pandas 提供的其他函数，如 apply() 和 loc[]，来实现更灵活的数据处理。

总结：

本文介绍了如何使用 Pandas 库合并两个数据框，并根据特定列的值创建新的列。通过 merge() 函数，我们可以方便地将两个数据框连接起来，并使用 suffixes 参数自定义列名。此外，我们还学习了如何使用 fillna() 函数将 NaN 值替换为 0。掌握这些技巧可以帮助你更有效地处理和分析数据。

Dash App 多下拉框联动失效的常见原因与修复方案

Python怎么抓包_mitmproxy实现手机PC中间人网络请求拦截篡改与数据截获

Python Flask怎么配路由_app.route装饰器绑定与带类型约束的动态URL参数传递

Django怎么创建App_startapp命令与INSTALLED_APPS注册

Flask怎么用中间件_包装app.wsgi_app拦截底层WSGI请求

相关标签:

pandas 数据类型

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：解决 Windows 系统下 pysam 包安装失败问题下一篇：Kivy .kv 文件语法与Python类关联指南

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板