0

0

如何高效实现 PySpark 中按 ID 分组并提取最新记录及全量历史记录

花韻仙語

花韻仙語

发布时间:2026-02-08 10:05:26

|

648人浏览过

|

来源于php中文网

原创

如何高效实现 PySpark 中按 ID 分组并提取最新记录及全量历史记录

本文介绍一种更简洁、可扩展的 pyspark 聚合方案:通过 `collect_list + struct` 一次性捕获完整带时间戳的原始行,再用 `filter` 和 `transform` 精准提取最新字段与结构化历史列表,避免多次窗口计算,显著提升多字段(如姓名、地址等)批量处理的可维护性。

在实际数据处理中,常需对同一实体(如 id)的历史快照进行聚合分析——既要保留全部历史状态(以结构化列表形式),又要快速定位最新有效值(如最新姓名、最新地址、最新时间戳)。传统做法依赖多次窗口函数(如 first(...).over(Window.partitionBy("id").orderBy("timestamp".desc()))),虽可行,但存在明显瓶颈:每新增一个字段组(如 address1, address2, address3),就得重复定义一次窗口计算,导致执行计划冗长、Shuffle 开销增大、代码难以复用和调试

以下是一种更优的替代方案,核心思想是 “一次收集,多次裁剪”

✅ 推荐写法(简洁、高效、易扩展)

from pyspark.sql import functions as F

result_df = (
    df
    .groupBy("id")
    .agg(
        # 步骤1:将每条记录(含 timestamp + 所有业务字段)打包为 struct 并 collect 成 list
        F.collect_list(F.struct("timestamp", "Fname", "Lname", "address1", "address2", "address3"))
            .alias("all_records"),
        # 步骤2:直接取最大 timestamp(无需窗口,轻量级聚合)
        F.max("timestamp").alias("latest_timestamp")
    )
    # 步骤3:从 all_records 中筛选出 timestamp == latest_timestamp 的那一条(注意:假设 timestamp 唯一;若不唯一,可用 row_number 预处理)
    .withColumn("latest_record", F.expr("filter(all_records, x -> x.timestamp = latest_timestamp)[0]"))
    # 步骤4:分别投影所需字段 —— 可轻松扩展至任意字段组合
    .select(
        "id",
        # 提取所有历史记录的 {Fname, Lname} 字典列表(去 timestamp)
        F.transform("all_records", lambda x: F.struct(x.Fname, x.Lname))
            .alias("all_names"),
        # 提取最新记录的 {Fname, Lname}
        F.struct("latest_record.Fname", "latest_record.Lname")
            .alias("latest_names"),
        # 提取最新记录的完整地址结构(只需追加字段名即可)
        F.struct("latest_record.address1", "latest_record.address2", "latest_record.address3")
            .alias("latest_address"),
        # 时间戳列保持原样
        "latest_timestamp"
    )
)

? 关键优势解析

  • 零窗口函数依赖:max("timestamp") 是轻量级全局聚合,collect_list(struct(...)) 是标准分组聚合,避免了 Window 带来的额外排序与内存压力;
  • 强可扩展性:新增字段(如 phone, email)仅需在 struct() 和后续 transform/struct 投影中同步添加,逻辑集中、无重复代码;
  • 语义清晰 & 易调试:中间列 all_records 是完整原始数据快照,便于验证逻辑;filter(...)[0] 直观表达“取最新一条”意图;
  • 性能友好:单次 shuffle(groupBy)完成全部聚合,相比多次 first().over(window) 减少网络传输与计算开销。

⚠️ 注意事项

  • 若 timestamp 在同一 id 下不唯一(即存在并列最新),filter(...)[0] 将随机返回其一。此时建议先用 row_number() 预处理去重:
    from pyspark.sql.window import Window
    w = Window.partitionBy("id").orderBy(F.col("timestamp").desc(), F.monotonically_increasing_id())
    df_with_rank = df.withColumn("rn", F.row_number().over(w)).filter("rn == 1")
  • collect_list 对大数据量 id 组存在内存风险,生产环境应评估单 id 最大历史条数,必要时增加 limit() 或改用 collect_set(需确保字段可哈希);
  • 输出 JSON 字符串需求?可在最终列上链式调用 .to_json(),例如:F.to_json("latest_names")。

该模式已广泛应用于用户画像更新、设备状态归档、订单地址快照等场景——用一次聚合承载多维最新态与全量历史,兼顾性能、可读性与工程可持续性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

431

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

542

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

314

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

79

2025.09.10

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

424

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

213

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1515

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

634

2023.11.24

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

39

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.9万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号