0

0

PySpark 中实现双表左连接并动态标注数据来源的完整教程

聖光之護

聖光之護

发布时间:2026-02-04 09:23:20

|

285人浏览过

|

来源于php中文网

原创

PySpark 中实现双表左连接并动态标注数据来源的完整教程

本文详解如何在 pyspark 中对两个 dataframe 执行左连接,基于邮箱或员工号匹配填充缺失字段,并新增 `src` 列标识数据来源(原始表或补充表),最终统一输出为标准格式。

在实际数据处理中,常需将主表(如用户邮件表)与辅助表(如员工信息表)关联,以补全关键字段(如 emp_no),同时明确每条记录的数据归属。本例中,df1 包含 mail_id 和 e_no,df2 包含 email 和 emp_no,目标是:以 df1 为主表执行左连接,优先使用 df2 的 emp_no 填充;若 df2 中无匹配项,则回退使用 df1 的 e_no;并新增 src 列标记来源(tbl2 表示来自 df2,tbl1 表示回退使用 df1 的原始值)

关键点在于:

  • 连接条件需语义正确:原问题中误用 df1['e_no'] == df2['emp_no'],但两表逻辑关系实为 mail_id ↔ email(邮箱地址匹配),e_no 与 emp_no 是待对齐的业务字段,不应作为连接键;
  • src 判定逻辑需基于连接结果状态:应检查 emp_no 是否为 null(即 df2 未匹配),而非错误地判断 mail_id 字段;
  • 字段合并需显式控制:使用 when().otherwise() 统一生成 emp_no 列,避免列名冲突或空值遗漏。

以下是推荐的完整实现:

from pyspark.sql import functions as F
from pyspark.sql.functions import col, when

# 步骤1:基于邮箱字段执行左连接(df1为主表)
result = df1.join(df2, df1.mail_id == df2.email, "left")

# 步骤2:添加数据来源标识列 'src'
# 若 emp_no 为 null → 来自 df1(回退使用 e_no),标记为 "tbl1"
# 否则 → 来自 df2,标记为 "tbl2"
result = result.withColumn(
    "src", 
    when(col("emp_no").isNull(), "tbl1").otherwise("tbl2")
)

# 步骤3:构造最终结果:重命名 mail_id → email,合并 emp_no 字段,保留 src
final_result = result.select(
    col("mail_id").alias("email"),
    when(col("emp_no").isNull(), col("e_no")).otherwise(col("emp_no")).alias("emp_no"),
    "src"
)

final_result.show()

✅ 输出效果(与预期一致):

Flowstep
Flowstep

AI界面设计工具,通过对话几秒内创建UI设计图、线框图和流程图

下载
+------------------+------+----+
|             email|emp_no| src|
+------------------+------+----+
||   111|tbl1|
||   222|tbl2|
||   333|tbl2|
+------------------+------+----+

⚠️ 注意事项:

  • 确保 mail_id 与 email 字段类型一致(建议均为 string),必要时用 .cast("string") 显式转换;
  • 若存在大小写或空格差异,可提前标准化:df1 = df1.withColumn("mail_id", F.trim(F.lower(col("mail_id"))));
  • when().otherwise() 是惰性求值,无需担心性能;但避免嵌套过深,保持逻辑可读性;
  • 生产环境中建议添加 result.count() 和 result.where(col("emp_no").isNull()).count() 进行连接质量校验。

该方案结构清晰、语义准确,兼顾健壮性与可维护性,适用于各类类似的数据补全与溯源场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

563

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

238

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

539

2024.03.01

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

全国统一发票查询平台入口合集
全国统一发票查询平台入口合集

本专题整合了全国统一发票查询入口地址合集,阅读专题下面的文章了解更多详细入口。

15

2026.02.03

短剧入口地址汇总
短剧入口地址汇总

本专题整合了短剧app推荐平台,阅读专题下面的文章了解更多详细入口。

24

2026.02.03

植物大战僵尸版本入口地址汇总
植物大战僵尸版本入口地址汇总

本专题整合了植物大战僵尸版本入口地址汇总,前往文章中寻找想要的答案。

14

2026.02.03

c语言中/相关合集
c语言中/相关合集

本专题整合了c语言中/的用法、含义解释。阅读专题下面的文章了解更多详细内容。

2

2026.02.03

漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题
漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题

本专题围绕漫蛙漫画(Manwa / Manwa2)官网网页版入口进行整理,涵盖漫蛙漫画官方主页访问方式、网页版在线阅读入口、台版正版漫画浏览说明及基础使用指引,帮助用户快速进入漫蛙漫画官网,稳定在线阅读正版漫画内容,避免误入非官方页面。

12

2026.02.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号