如何高效实现 PySpark 中按 ID 分组并提取最新记录及全量历史记录

花韻仙語

发布时间：2026-02-08 10:05:26

648人浏览过

来源于php中文网

原创

如何高效实现 PySpark 中按 ID 分组并提取最新记录及全量历史记录

本文介绍一种更简洁、可扩展的 pyspark 聚合方案：通过 `collect_list + struct` 一次性捕获完整带时间戳的原始行，再用 `filter` 和 `transform` 精准提取最新字段与结构化历史列表，避免多次窗口计算，显著提升多字段（如姓名、地址等）批量处理的可维护性。

在实际数据处理中，常需对同一实体（如 id）的历史快照进行聚合分析——既要保留全部历史状态（以结构化列表形式），又要快速定位最新有效值（如最新姓名、最新地址、最新时间戳）。传统做法依赖多次窗口函数（如 first(...).over(Window.partitionBy("id").orderBy("timestamp".desc()))），虽可行，但存在明显瓶颈：每新增一个字段组（如 address1, address2, address3），就得重复定义一次窗口计算，导致执行计划冗长、Shuffle 开销增大、代码难以复用和调试。

以下是一种更优的替代方案，核心思想是 “一次收集，多次裁剪”：

HoloPix AI

下载

✅ 推荐写法（简洁、高效、易扩展）

from pyspark.sql import functions as F

result_df = (
    df
    .groupBy("id")
    .agg(
        # 步骤1：将每条记录（含 timestamp + 所有业务字段）打包为 struct 并 collect 成 list
        F.collect_list(F.struct("timestamp", "Fname", "Lname", "address1", "address2", "address3"))
            .alias("all_records"),
        # 步骤2：直接取最大 timestamp（无需窗口，轻量级聚合）
        F.max("timestamp").alias("latest_timestamp")
    )
    # 步骤3：从 all_records 中筛选出 timestamp == latest_timestamp 的那一条（注意：假设 timestamp 唯一；若不唯一，可用 row_number 预处理）
    .withColumn("latest_record", F.expr("filter(all_records, x -> x.timestamp = latest_timestamp)[0]"))
    # 步骤4：分别投影所需字段 —— 可轻松扩展至任意字段组合
    .select(
        "id",
        # 提取所有历史记录的 {Fname, Lname} 字典列表（去 timestamp）
        F.transform("all_records", lambda x: F.struct(x.Fname, x.Lname))
            .alias("all_names"),
        # 提取最新记录的 {Fname, Lname}
        F.struct("latest_record.Fname", "latest_record.Lname")
            .alias("latest_names"),
        # 提取最新记录的完整地址结构（只需追加字段名即可）
        F.struct("latest_record.address1", "latest_record.address2", "latest_record.address3")
            .alias("latest_address"),
        # 时间戳列保持原样
        "latest_timestamp"
    )
)

? 关键优势解析

零窗口函数依赖：max("timestamp") 是轻量级全局聚合，collect_list(struct(...)) 是标准分组聚合，避免了 Window 带来的额外排序与内存压力；
强可扩展性：新增字段（如 phone, email）仅需在 struct() 和后续 transform/struct 投影中同步添加，逻辑集中、无重复代码；
语义清晰 & 易调试：中间列 all_records 是完整原始数据快照，便于验证逻辑；filter(...)[0] 直观表达“取最新一条”意图；
性能友好：单次 shuffle（groupBy）完成全部聚合，相比多次 first().over(window) 减少网络传输与计算开销。

⚠️ 注意事项

若 timestamp 在同一 id 下不唯一（即存在并列最新），filter(...)[0] 将随机返回其一。此时建议先用 row_number() 预处理去重：

from pyspark.sql.window import Window
w = Window.partitionBy("id").orderBy(F.col("timestamp").desc(), F.monotonically_increasing_id())
df_with_rank = df.withColumn("rn", F.row_number().over(w)).filter("rn == 1")

collect_list 对大数据量 id 组存在内存风险，生产环境应评估单 id 最大历史条数，必要时增加 limit() 或改用 collect_set（需确保字段可哈希）；
输出 JSON 字符串需求？可在最终列上链式调用 .to_json()，例如：F.to_json("latest_names")。

该模式已广泛应用于用户画像更新、设备状态归档、订单地址快照等场景——用一次聚合承载多维最新态与全量历史，兼顾性能、可读性与工程可持续性。

如何用Python爬取网页数据？

Python爬虫高级技巧解析_防反爬机制突破与应对策略

Python爬虫进阶教程_反爬机制与数据清洗

PythonWeb爬虫反爬策略教程_IP代理与验证码识别案例

Python反爬识别原理_行为分析解析【教程】

相关标签:

js json 大数据 ai win json timestamp Filter 字符串 Struct transform

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何高效地对超大规模 PyArrow 数据集进行随机采样下一篇：如何将 YOLOv5 的 detect.py 打包为独立可执行文件（.exe）

作者最新文章

如何在 Go 中使用 OAuth2 正确获取 Google 用户邮箱

2026-02-07 16:59

响应式图像缩放：让图片随屏幕尺寸自适应缩放并保持相对位置

2026-02-07 17:10

AppLovin Max Banner 广告未按预期显示在底部的解决方案

2026-02-07 17:15

如何在 Vue 中持久化 Vuex 状态（如用户登录状态）以支持页面刷新后保留

2026-02-07 17:20

如何让下拉框宽度仅适配国家代码长度

2026-02-07 17:20

解决全局变量获取 DOM 元素为 null 的常见问题

2026-02-07 17:27

Java 中的线程是并发还是并行？深入解析 JVM 多线程执行模型

2026-02-07 17:44

如何正确累加多维数组中所有数值以计算总金额

2026-02-07 17:52

Windows Java 环境变量失效问题的终极解决方案

2026-02-07 17:53

前员工曝日本游戏大厂残酷现状引热议：顶尖画师也难逃流水线！

2026-02-07 17:54

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

431

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

542

2023.08.23