Python中使用pandas实现SQL LEFT JOIN的正确方法

霞舞

发布时间：2026-03-16 10:45:14

929人浏览过

来源于php中文网

原创

Python中使用pandas实现SQL LEFT JOIN的正确方法

本文详解如何在python中用pandas准确实现sql的left outer join逻辑，重点纠正常见误区（如冗余参数、列名歧义），并给出可直接运行的代码示例与关键注意事项。

本文详解如何在python中用pandas准确实现sql的left outer join逻辑，重点纠正常见误区（如冗余参数、列名歧义），并给出可直接运行的代码示例与关键注意事项。

在将SQL逻辑迁移至Python数据分析流程时，JOIN操作是最常被误译的部分之一。题中SQL语句：

INSERT INTO tropical_fruits
SELECT DISTINCT A.* 
FROM fruits A LEFT OUTER JOIN tropical_fruits B 
ON A.[fruit1] = B.[fruit1] AND A.[fruit2] = B.[fruit2];

其核心语义是：*保留左表 fruits 的全部行，对每行尝试在右表 tropical_fruits 中匹配 fruit1 和 fruit2 完全相同的记录；若无匹配，则右表对应列填充 NaN；最终结果仅需左表原始字段（即 `A.`）**。

原Python代码存在两个关键问题：

冗余指定 left_on/right_on：当左右表连接列名完全一致（均为 'fruit1' 和 'fruit2'）时，应优先使用简洁的 on= 参数，避免因列名拼写或大小写差异引发静默错误；
未过滤右表冗余列：pd.merge() 默认会保留右表所有列（如 tropical_fruits.fruit1_x, tropical_fruits.fruit2_y 等后缀列），而SQL中的 SELECT DISTINCT A.* 明确要求只取左表字段——这需后续显式筛选。

✅ 正确且简洁的实现如下：

iMuse.AI

iMuse.AI 创意助理，为设计师提供无限灵感！

下载

立即学习“Python免费学习笔记（深入）”；

# 步骤1：执行LEFT JOIN（自动按同名列匹配）
merged = fruits.merge(tropical_fruits, on=['fruit1', 'fruit2'], how='left')

# 步骤2：仅保留左表原始列（等价于 SQL 中的 A.*）
result = merged[fruits.columns].drop_duplicates()

# （可选）若需模拟 INSERT 效果（追加到 tropical_fruits 表），可：
# tropical_fruits = pd.concat([tropical_fruits, result], ignore_index=True).drop_duplicates()

? 关键注意事项：

✅ merge(..., on=...) 是同名列连接的首选，语义清晰、不易出错；仅当列名不同时才用 left_on/right_on；
❌ 避免 how='left' 与 indicator=True 混用却不处理 _merge 列——除非你需要标记匹配状态；
⚠️ drop_duplicates() 不可省略：SQL 中的 DISTINCT A.* 是去重左表行，而非简单去重整个合并结果；
? 若两表存在重复键（如 fruits 中多行具有相同 fruit1+fruit2 组合），LEFT JOIN 会产生笛卡尔积式膨胀，务必提前检查键唯一性：
```
print("fruits key duplicates:", fruits.duplicated(subset=['fruit1','fruit2']).sum())
```

综上，pandas.DataFrame.merge() 是SQL JOIN的自然映射，但必须严格对照SQL语义逐项还原——尤其关注“保留哪些列”“是否去重”“连接键一致性”三大维度。掌握这一逻辑，即可稳健完成各类SQL-to-Python数据整合任务。

Python爬虫乱码怎么修_response.encoding = ‘utf-8’与apparent_encoding自动推断

Python字符串怎么统计子串出现次数_count()方法详解

如何高效解析大型 XML 文件：Python 流式处理实战指南

Python异步事件怎么用_asyncio.Event()实现协程间的通知机制与状态同步(set/wait)

高效实现 NumPy 中基于索引区间的元素累加运算

相关标签:

python sql pandas select 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python OrderedDict怎么用_有序字典特性与LRU缓存实现下一篇：暂无

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12