基于部分匹配的 Pandas DataFrame 合并：提取与合并技巧

霞舞

发布时间：2025-09-28 19:22:00

663人浏览过

来源于php中文网

原创

基于部分匹配的 pandas dataframe 合并：提取与合并技巧

本文旨在介绍如何使用 Pandas 库，在两个 DataFrame 中，当一个 DataFrame 的列包含另一个 DataFrame 列的部分文本时，实现高效的数据合并。通过正则表达式提取关键信息，并结合 Pandas 的 merge 函数，提供了一种灵活且强大的数据处理方法。

在数据分析工作中，经常会遇到需要合并两个 DataFrame 的情况。但有时，两个 DataFrame 之间没有完全匹配的列，而是存在部分匹配的关系。例如，一个 DataFrame 的某一列包含另一个 DataFrame 列的部分文本信息。针对这种情况，我们可以使用 Pandas 结合正则表达式来提取关键信息，然后进行合并。

以下是一个详细的步骤指南，展示如何使用 Pandas 来完成这个任务。

1. 数据准备

首先，我们需要创建两个示例 DataFrame，模拟实际场景中的数据结构。

import pandas as pd

# 创建第一个 DataFrame (df1)
data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],
         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],
         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}
df1 = pd.DataFrame(data1)

# 创建第二个 DataFrame (df2)
data2 = {'Site': ['ABC', 'DDC'],
         'City': ['NYC', 'DAL'],
         'State': ['NY', 'TX']}
df2 = pd.DataFrame(data2)

print("DataFrame df1:\n", df1)
print("\nDataFrame df2:\n", df2)

2. 提取关键信息

核心思路是使用正则表达式从 df1['Hostname'] 列中提取出与 df2['Site'] 列匹配的部分。这里假设 df1['Hostname'] 中包含 Server 前缀，后跟三个大写字母，这三个字母对应于 df2['Site'] 的值。

# 使用正则表达式提取 Site 代码
df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")

print("\nDataFrame df1 after extracting Site:\n", df1)

这段代码使用 str.extract() 方法和正则表达式 r"Server([A-Z]{3})" 从 Hostname 列中提取 Site 代码。正则表达式的含义是：

InstantMind

AI思维导图生成器，支持30+文件格式一键转换，包括PDF、Word、视频等。

下载

Server: 匹配字符串 "Server"。
([A-Z]{3}): 匹配三个大写字母，并将其捕获到一个分组中。str.extract() 方法会返回这个分组的内容。

3. 数据合并

现在，df1 已经有了一个新的 Site 列，我们可以使用 pd.merge() 函数将 df1 和 df2 合并。

# 合并 DataFrame
df1 = pd.merge(df1, df2, on='Site', how='left')

print("\nFinal DataFrame:\n", df1)

这里使用 how='left' 进行左连接，保留 df1 中的所有行，并将 df2 中匹配的行添加到 df1 中。如果 df1 中的 Site 在 df2 中没有匹配项，则相应的列将填充 NaN 值。

4. 完整代码示例

import pandas as pd

# 创建第一个 DataFrame (df1)
data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],
         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],
         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}
df1 = pd.DataFrame(data1)

# 创建第二个 DataFrame (df2)
data2 = {'Site': ['ABC', 'DDC'],
         'City': ['NYC', 'DAL'],
         'State': ['NY', 'TX']}
df2 = pd.DataFrame(data2)

# 使用正则表达式提取 Site 代码
df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")

# 合并 DataFrame
df1 = pd.merge(df1, df2, on='Site', how='left')

print(df1)

5. 注意事项与总结

正则表达式的准确性： 正则表达式必须准确匹配需要提取的文本模式。如果 Hostname 的格式发生变化，需要相应地调整正则表达式。
how 参数的选择： pd.merge() 函数的 how 参数决定了合并的方式。根据实际需求选择合适的连接方式（left、right、inner、outer）。
数据清洗： 在提取和合并之前，可能需要对数据进行清洗，例如处理缺失值、统一数据类型等。
性能优化： 对于大型 DataFrame，可以考虑使用更高效的字符串处理方法或优化正则表达式，以提高性能。

通过以上步骤，我们可以有效地利用 Pandas 和正则表达式，在存在部分匹配关系的情况下，成功合并两个 DataFrame，为后续的数据分析和处理奠定基础。这种方法具有很强的灵活性，可以根据实际情况调整正则表达式和合并策略，适应不同的数据结构和需求。

如何在 python-docx 中查看并应用所有内置表格样式

Python lambda 表达式的边界与应用

Python 高阶函数的设计思路

如何使用多张图像训练 TensorFlow Sequential 模型

如何将缩进格式的树状字符串转换为路径列表

相关标签:

正则表达式数据清洗正则表达式 pandas 数据类型字符串数据结构性能优化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python程序打包后进程无限复制的解决方案下一篇：无限进程克隆：PyInstaller打包Python截图脚本的解决方案

作者最新文章

如何使用XPath结合data属性精准提取HTML元素内容

2026-01-27 09:43

《生化危机：代号维罗妮卡》重制版首批细节 2027年Q1发售

2026-01-27 09:44

JavaScript 中数组浅拷贝与深拷贝的正确用法详解

2026-01-27 09:47

如何正确将完整字符串赋值给HTML文本输入框

2026-01-27 09:58

《刺客信条》系列负责人起诉育碧外媒分析或会影响《刺客信条》系列未来

2026-01-27 09:59

《寂静岭2：重制版》开发者表示我们正在见证恐怖游戏的复兴

2026-01-27 10:10

《恶意不息》合作玩法盘活了整个游戏 Steam峰值超6万人

2026-01-27 10:11

《筑梦颂》开发商新作《Star Birds》更新：加入餐饮流水线与关卡生成器

2026-01-27 10:26

《巅峰守卫》Steam多半差评上线几个小时流失一半玩家

2026-01-27 10:31

苹果发布iOS 26.2.1：适配AirTag 2！iPhone 15及以上必升

2026-01-27 10:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

512

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

745

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

214

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

532

2023.12.06

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

热门下载

网站特效

网站源码

网站素材

前端模板