如何基于模糊匹配的多值分隔符键连接两个DataFrame

霞舞

发布时间：2026-01-30 09:20:07

968人浏览过

来源于php中文网

原创

如何基于模糊匹配的多值分隔符键连接两个DataFrame

本文介绍在pandas中实现“一对多”式条件连接的方法：当df2的dest列以斜杠分隔多个值（如"a/b/c"）时，将df1中(org, dest)与df2中org相同且dest为该字符串中任一子项的记录进行左连接。

在实际数据处理中，常遇到连接键不完全一致但存在逻辑包含关系的情况——例如，df2中的 dest 字段存储的是用 / 分隔的多个目标值（如 "A/B/C"），而 df1 中的 dest 是单一值（如 "B"）。此时标准的 merge 无法直接匹配，需先对 df2 的 dest 列进行结构化解析，再执行常规连接。

核心思路是：

将 df2['dest'] 按 '/' 拆分为列表；
使用 .explode() 将每个列表展开为多行（一行变多行），使复合键扁平化；
基于标准化后的 (org, dest) 对两表执行 left merge。

✅ 完整实现代码如下：

import pandas as pd

# 构造示例数据
df1 = pd.DataFrame({
    'Name': ['Ashok', 'Rahul', 'Anupa', 'Sam'],
    'org':  ['A',     'A',     'B',     'A'],
    'dest': ['B',     'C',     'A',     'B']
})

df2 = pd.DataFrame({
    'org':   ['A', 'B', 'A'],
    'dest':  ['A/B/C', 'C', 'W'],
    'Amount': [10, 20, 30]
})

# 关键步骤：拆分 + 展开 + 连接
df2_exploded = df2.assign(dest=df2['dest'].str.split('/')).explode('dest')
df3 = df1.merge(df2_exploded, on=['org', 'dest'], how='left')

print(df3)

输出结果：

iMuse.AI

iMuse.AI 创意助理，为设计师提供无限灵感！

下载

    Name org dest  Amount
0  Ashok   A    B    10.0
1  Rahul   A    C    10.0
2  Anupa   B    A     NaN
3    Sam   A    B    10.0

⚠️ 注意事项：

str.split('/') 默认返回 list，若某 dest 值不含 /（如 "C" 或 "W"），会生成单元素列表（['C']），explode 仍能正确处理；
若 dest 含空值（NaN），str.split() 会返回 NaN，explode 会保留该行但 dest 为 NaN，可能导致连接失败，建议提前用 df2 = df2.dropna(subset=['dest']) 清洗；
若需严格匹配原始预期输出中 "Rahul" 行 Amount 为空（即不填充 10），说明业务逻辑要求仅匹配 df2 中 org 和 dest 同时精确对应的记录（如 "A" → "A/B/C" 仅当 dest='A' 才匹配），本方案已满足；但注意 "Rahul" 实际应匹配到 df2 第一行（org='A', dest='A/B/C' → 展开后含 'C'），因此 Amount=10 是正确的——若业务要求不同，请进一步明确匹配优先级（如正则、前缀匹配等）。

该方法简洁高效，适用于中等规模数据；对于超大规模数据，可考虑使用 pd.concat + map 或预构建映射字典优化性能。

相关标签:

pandas 字符串 map

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何从 JSON 配置中安全读取并解析日志级别（非字符串形式）下一篇：计算当月已过的交易日数量（不含周末和节假日）

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1249

2024.03.22