0

0

PySpark 中按分组用最后一个非空值填充空值(保留中间非空值)

花韻仙語

花韻仙語

发布时间:2026-02-11 09:52:13

|

634人浏览过

|

来源于php中文网

原创

PySpark 中按分组用最后一个非空值填充空值(保留中间非空值)

本文介绍如何在 pyspark 中对 dataframe 按分区(group)进行前向/后向回填(backfill),仅将每组内 null 值替换为该组中**排序后最后一个非空值**,同时严格保留所有原始非空值不被覆盖。

在数据清洗与特征工程中,常需对缺失值进行智能填充。一种典型场景是:按某个键(如 ID)分组后,将每个分组内所有 null 值统一替换为该组中排序顺序上最后一个出现的非空值(即“向后回填”),但不能覆盖组内已存在的非空值——这正是标准 last() 窗口函数直接使用时容易出错的地方:若未加条件控制,它会将整列都替换为最后一个值,失去原始有效数据。

要实现真正的“仅填充 null、保留非 null”,核心思路是:结合条件判断(when/otherwise)与带方向的窗口聚合。具体步骤如下:

✅ 正确做法:条件式回填(Backfill with Conditional Logic)

使用 pyspark.sql.functions.when() 判断当前行是否为 null;若是,则调用 last(..., ignoreNulls=True) 在指定窗口内查找最后一个非空值;否则,原样保留该值。

关键细节:

  • 窗口需按业务逻辑排序(如时间戳、序号等),确保“最后一个”语义明确;
  • rowsBetween(0, Window.unboundedFollowing) 表示从当前行开始,向后扫描至分区末尾(即“向后找最后一个非空值”);
  • ignoreNulls=True 是必须参数,否则 last() 遇到 null 会跳过或返回 null;
  • 使用 Window.unboundedFollowing 替代 sys.maxsize,更语义清晰且跨平台安全。

以下是完整可运行示例:

久久企业网站后台管理系统1.0
久久企业网站后台管理系统1.0

一、功能简介本软件完全适应大、中、小型网站建设需要,让您用很便宜的虚拟主机空间也可以开通4个独立的网站!久久企业网站后台管理系统各种版本开发基础架构均为php+mysql+div+css+伪静态,迎合搜索引擎排名的喜好。另外值得一提的是本站特色的TAG系统可为您的网站做出无限分类,不用任何设置全站ULR伪静态!本建站系统除了有产品发布、新闻(软文)发布、订单管理系统和留言反馈等一些最基本的功能之外

下载
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

spark = SparkSession.builder.appName("BackfillExample").getOrCreate()

# 构造示例数据
data = [
    ("grp1", None),
    ("grp1", 4),
    ("grp1", 5),
    ("grp2", None),
    ("grp2", 6),
    ("grp2", None),
    ("grp2", 7)
]
df = spark.createDataFrame(data, ["ID", "Value"])

# 定义窗口:按 ID 分组,按 Value 升序(注意:实际应按时间列排序!此处仅为演示)
# ⚠️ 重要:真实场景中 order_by_column 应为时间戳、序列号等有明确先后关系的列
window_spec = Window.partitionBy("ID").orderBy("Value").rowsBetween(0, Window.unboundedFollowing)

# 执行条件回填
filled_df = df.withColumn(
    "FilledValue",
    F.when(
        F.col("Value").isNull(),
        F.last(F.col("Value"), ignoreNulls=True).over(window_spec)
    ).otherwise(F.col("Value"))
)

filled_df.select("ID", "Value", "FilledValue").show()

输出结果:

+----+-----+-----------+
|  ID|Value|FilledValue|
+----+-----+-----------+
|grp1| null|          5|
|grp1|    4|          4|
|grp1|    5|          5|
|grp2| null|          7|
|grp2|    6|          6|
|grp2| null|          7|
|grp2|    7|          7|
+----+-----+-----------+

✅ 完全匹配预期目标:grp1 的首 null 填为 5(该组最大值),grp2 的两个 null 均填为 7(该组末尾非空值),中间的 6 被完整保留。

⚠️ 注意事项与最佳实践

  • 排序列至关重要:orderBy() 必须基于一个能反映数据时序或逻辑顺序的列(如 event_time, seq_id)。若错误地按 Value 排序(如本例仅为示意),可能导致语义偏差。生产环境请务必校验排序逻辑。
  • 避免 ignoreNulls=False:默认 last() 不忽略 null,会导致结果不可控;显式传入 ignoreNulls=True 是安全前提。
  • 性能提示:rowsBetween(0, unboundedFollowing) 是高效操作,无需全分区扫描;但若数据量极大且分组极不均衡,可考虑预过滤或采样验证逻辑。
  • 扩展性建议:若需“向前回填”(用第一个非空值填充后续 null),只需将窗口改为 rowsBetween(Window.unboundedPreceding, 0) 并配合 first(..., ignoreNulls=True)。

通过 when + last(..., ignoreNulls=True) 的组合,你既能精准控制填充行为,又能充分利用 Spark 窗口函数的分布式计算能力,实现健壮、可维护的数据回填逻辑。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

900

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

333

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

372

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1550

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

368

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1108

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

583

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

433

2024.04.29

包子漫画网页版入口与全集阅读指南_正版免费漫画快速访问方法
包子漫画网页版入口与全集阅读指南_正版免费漫画快速访问方法

本专题汇总了包子漫画官网和网页版入口,提供最新章节抢先看方法、正版免费阅读指南,以及稳定访问方式,帮助用户快速直达包子漫画页面,无广告畅享全集漫画内容。

50

2026.02.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号