Pandas中处理含分隔符列的模糊匹配与数据合并

心靈之曲

发布时间：2025-10-15 12:52:06

1036人浏览过

来源于php中文网

原创

Pandas中处理含分隔符列的模糊匹配与数据合并

本文探讨了在pandas中处理包含分隔符的键列进行数据合并的挑战与解决方案。当一个dataframe的关键列包含以分号等分隔符连接的多个值时，传统的`merge`操作无法直接进行模糊匹配。文章提供了一种基于迭代和字符串包含检查的策略，详细解释了如何将源dataframe的单个值与目标dataframe中包含多个值的列进行匹配，并回填相关信息，同时讨论了性能优化和注意事项。

在数据分析和处理中，我们经常需要将两个或多个数据集（通常是Pandas DataFrame）基于某个共同的键进行合并。然而，实际数据往往并非总是规整的。一种常见的复杂情况是，在用于合并的关键列中，某些单元格可能包含由特定分隔符（如分号、逗号）连接的多个值，而另一个DataFrame的对应列则包含单个值。在这种“一对多”或“多对一”的模糊匹配场景下，标准的df.merge()函数通常无法满足需求，因为它要求精确的键匹配。

理解问题：含分隔符的键列

假设我们有两个DataFrame：df1 包含一系列独立的“产品ID”（PDs），而 df2 包含“编号”（Number）及其对应的“产品ID”（PDs）。df2 中的“PDs”列可能包含单个产品ID，也可能包含由分号 ; 分隔的多个产品ID。我们的目标是，对于 df1 中的每一个产品ID，去 df2 中查找，如果 df1 的产品ID包含在 df2 的某个“PDs”单元格中（无论是单独存在还是作为分隔符字符串的一部分），则将 df2 对应的“Number”映射回 df1。

示例数据结构：

df1 (源数据，单个PDs)：

PDs
2345
2675
8706
3452
9999

df2 (目标数据，含分隔符的PDs)：

Number	PDs
101	2345
102	2675
103	8706
104	9045;4729;5392
105	3452
106	1111;2222

如果直接使用 df1.merge(df2[['Number', 'PDs']], on='PDs')，它将无法匹配 df1 中的 9045 到 df2 中 9045;4729;5392 这样的单元格，因为它们不是完全相等的。

解决方案：基于迭代的模糊匹配

为了解决这个问题，我们需要采用一种更灵活的匹配策略，即遍历 df1 中的每个产品ID，然后检查它是否存在于 df2 的“PDs”列的每个字符串中。

核心思路：

Joker AIx

一站式AI创意生产平台，覆盖图像、视频、音频、文案全品类创作

下载

将 df2 的相关列转换为一个便于查找的字典，其中键是 Number，值是 PDs 字符串。
将 df1 的“PDs”列转换为一个列表，以便逐一遍历。
通过嵌套循环，对 df1 中的每个产品ID，与 df2 字典中的每个“PDs”字符串进行包含性检查。
如果找到匹配，则记录 df2 对应的 Number。
将收集到的 Number 列表作为新列添加到 df1 中。

代码实现

下面是具体的Python代码实现，使用Pandas库来处理数据：

import pandas as pd
import numpy as np

# 模拟数据
data1 = {'PDs': [2345, 2675, 8706, 3452, 9999]}
df1 = pd.DataFrame(data1)

data2 = {'Number': [101, 102, 103, 104, 105, 106],
         'PDs': ['2345', '2675', '8706', '9045;4729;5392', '3452', '1111;2222']}
df2 = pd.DataFrame(data2)

print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)

# 1. 将 df2 的 'Number' 和 'PDs' 列转换为字典，方便查找
# 键是 Number，值是 PDs 字符串
df2_pd_map = dict(zip(df2['Number'], df2['PDs']))

# 2. 将 df1 的 'PDs' 列转换为列表，以便逐一遍历
df1_pds_list = df1['PDs'].tolist()

# 3. 初始化一个列表来存储匹配到的 Number
mapped_numbers = []

# 4. 遍历 df1 中的每个 PD，并在 df2_pd_map 中查找匹配
for single_pd in df1_pds_list:
    found_match = False
    for number, delimited_pds_str in df2_pd_map.items():
        # 确保比较的是字符串，并检查是否包含
        if str(single_pd) in delimited_pds_str:
            mapped_numbers.append(number)
            found_match = True
            break  # 找到第一个匹配项后，跳出内层循环，处理下一个 single_pd
    if not found_match:
        mapped_numbers.append(np.nan) # 如果没有找到匹配，则填充 NaN

# 5. 将结果作为新列添加到 df1
df1['Mapped_Number'] = mapped_numbers

print("\n合并后的 df1:")
print(df1)

代码解析：

df2_pd_map = dict(zip(df2['Number'], df2['PDs']))：创建了一个字典，其中 df2 的 Number 列作为键，PDs 列（可能含分隔符的字符串）作为值。这使得我们能够快速地通过 Number 找到对应的 PDs 字符串。
df1_pds_list = df1['PDs'].tolist()：将 df1 的 PDs 列转换为一个列表，方便进行迭代。
for single_pd in df1_pds_list:：外层循环遍历 df1 中的每一个独立产品ID。
for number, delimited_pds_str in df2_pd_map.items():：内层循环遍历 df2_pd_map 字典中的每一个键值对，number 是 df2 的编号，delimited_pds_str 是 df2 中可能包含多个PD的字符串。
if str(single_pd) in delimited_pds_str:：这是模糊匹配的核心。str(single_pd) 确保 single_pd 被转换为字符串，以避免类型不一致导致的错误。in 操作符检查 single_pd 字符串是否作为子串存在于 delimited_pds_str 中。
mapped_numbers.append(number) 和 break：一旦找到匹配，就将 df2 的 Number 添加到结果列表，并立即跳出内层循环，因为我们已经找到了 df1 中当前 single_pd 的一个匹配项。
if not found_match: mapped_numbers.append(np.nan)：这是一个重要的健壮性改进。如果 df1 中的某个 single_pd 在 df2 中完全找不到匹配项，则向结果列表添加 np.nan（或你选择的其他默认值），以确保 mapped_numbers 列表的长度与 df1 的行数一致，避免赋值错误。
df1['Mapped_Number'] = mapped_numbers：将最终的匹配结果作为新列赋给 df1。

注意事项与优化

性能考虑：
- 上述基于嵌套循环的方法在处理小到中等规模的数据集时表现良好。
- 对于非常大的数据集（例如，df1 和 df2 都有数十万行），嵌套循环的 O(N*M) 时间复杂度可能会导致性能瓶颈。
- 优化方向：
  - 使用 apply 和 str.contains： 可以将内层循环替换为 df2['PDs'].apply(lambda x: str(single_pd) in x)，但这仍然是外层循环。
  - 数据预处理： 如果 df2['PDs'] 包含分隔符，可以考虑先将其“展开”成多行（例如，使用 str.split(';').explode()），然后再进行标准的 merge 操作。这种方法可能会显著增加 df2 的行数，但后续的 merge 操作效率更高。
  - 向量化字符串匹配库： 对于更复杂的模糊匹配，可以考虑使用像 fuzzywuzzy 或 rapidfuzz 这样的库，但它们通常用于计算字符串相似度而非简单的包含关系。
数据类型一致性：
- 在进行字符串包含检查时，确保所有参与比较的值都是字符串类型至关重要。代码中的 str(single_pd) 就是为了这个目的。如果 df2['PDs'] 列本身可能包含非字符串类型，也需要对其进行预处理（例如 df2['PDs'].astype(str)）。
多对一匹配：
- 当前方案是“一对多”的匹配，即 df1 的一个 PD 可能会匹配到 df2 中包含该 PD 的多个 delimited_pds_str。但由于 break 语句，它只会返回找到的第一个 Number。
- 如果需要收集所有匹配到的 Number（例如，将它们存储为列表），则需要修改 mapped_numbers.append(number) 和 break 的逻辑。例如，可以为每个 single_pd 存储一个 Number 列表。
分隔符的灵活性：
- 本教程假设分隔符是固定的分号 ;。如果分隔符不固定，或者有多种分隔符，则需要更复杂的字符串解析逻辑（例如，使用正则表达式 re.split()）。

总结

处理Pandas中含分隔符列的模糊匹配是一个常见的挑战。虽然标准的 merge 函数无法直接应对，但通过结合迭代和字符串包含检查，我们可以有效地实现所需的数据关联。理解数据的特性、选择合适的匹配策略以及考虑性能和健壮性，是构建高效、可靠数据处理流程的关键。对于大规模数据，预处理和向量化操作往往是优于纯Python循环的优化方向。

如何验证字典中是否包含内嵌字典的列表

Python 中实现循环内条件重试：避免空数据导致的流程中断

GitHub Actions 中同时捕获多行脚本输出与保留退出码的完整方案

如何在 Linux/macOS 系统中全面查找所有 Python 解释器安装

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Docker开发环境中高效安装Python 3.10+的官方指南下一篇：解决Python本地环境中Torch包安装失败问题

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板