如何在 PySpark 中将数组元素循环展开为新列

心靈之曲

发布时间：2026-02-09 17:57:47

733人浏览过

来源于php中文网

原创

如何在 PySpark 中将数组元素循环展开为新列

本文介绍在 pyspark（≥3.4）中，如何将一个固定长度的数组（如 [5,4,3,4,1,0]）按指定次数（如 5 次）**逐元素循环展开**，生成长度为 `len(array) × repeat_times` 的扁平化数组列，并安全绑定到原 dataframe。

在 PySpark 中实现“数组循环展开”（即重复拼接数组元素而非嵌套数组）需避免误用 array_repeat——该函数默认返回嵌套结构（如 [[5,4,3,4,1,0], [5,4,3,4,1,0], ...]），而目标是得到单层扁平数组 [5,4,3,4,1,0,5,4,3,4,1,0,...]。自 PySpark 2.4 起，可通过 array_repeat 与 flatten 函数组合高效达成此目的：前者生成重复的数组列表，后者将其压平为一维数组。

以下为完整实现步骤：

✅ 正确方法：array_repeat + flatten

from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = SparkSession.builder.appName("ArrayRepeatFlatten").getOrCreate()

# 示例：原始 DataFrame 含单列 array，值为 [5,4,3,4,1,0]
df = spark.createDataFrame([([5, 4, 3, 4, 1, 0],)], ["array"])

# 创建新列 'repeated_seq'：将 array 列内容重复 5 次并展平
df_with_repeated = df.withColumn(
    "repeated_seq",
    F.flatten(F.array_repeat("array", 5))
)

df_with_repeated.show(truncate=False)

输出效果：

WHEE

WHEE是一款AI绘画与图片生成器，提供一站式AI视觉创作服务。WHEE不仅会画也会修图，各种AI修图功能一应俱全。

下载

+------------------+------------------------------------------------------------------------------------------+
|array             |repeated_seq                                                                              |
+------------------+------------------------------------------------------------------------------------------+
|[5, 4, 3, 4, 1, 0]|[5, 4, 3, 4, 1, 0, 5, 4, 3, 4, 1, 0, 5, 4, 3, 4, 1, 0, 5, 4, 3, 4, 1, 0, 5, 4, 3, 4, 1, 0]|
+------------------+------------------------------------------------------------------------------------------+

✅ 关键说明：F.array_repeat("array", 5) 返回长度为 5 的数组（每个元素均为原数组），F.flatten(...) 将其递归展平为单层数组，完美匹配需求。

⚠️ 注意事项

列类型要求：输入列（如 "array"）必须为 ArrayType（即数组类型），否则会报错。若数据来自字符串或 JSON 字段，需先用 from_json 或 split + cast 转换为数组。
性能提示：该操作在 Driver 端不触发计算，完全在 Executor 上执行，适用于大规模数据；但最终数组长度不可过大（如千万级），否则可能引发内存压力。
兼容性：flatten 自 Spark 3.1 起支持嵌套深度 >1 的数组，PySpark 3.4（MS Fabric 当前版本）完全兼容，无需降级处理。
扩展用法：若需动态控制重复次数（如每行不同），可将 5 替换为整数类型的列名（如 "repeat_times"），前提是该列已存在且非空。

✅ 总结

通过 array_repeat 和 flatten 的组合，PySpark 提供了简洁、声明式、高性能的数组循环展开方案。相比 UDF（用户自定义函数），该方法零 Python 序列化开销、全 Spark SQL 优化器支持，是生产环境推荐的标准实践。对于含 30 行、需绑定 6×5=30 元素序列的场景，该方案可直接复用，精准满足列对齐需求。

相关标签:

sql json Array 字符串递归循环整数类型 len spark fabric

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PyCaret 分类模块导入失败：SciPy interp 函数缺失的解决方案下一篇：暂无

作者最新文章

菜鸡云游戏如何领取免费时长

2026-02-07 16:28

蛙漫2漫画入口官网在哪

2026-02-07 16:32

嘀嗒出行车主认证要多久

2026-02-07 16:34

实现 iframe 滚动时顶部吸附并渐进缩放的响应式布局教程

2026-02-07 16:35

简化多组展开/收起按钮的交互逻辑：用 jQuery 一行绑定实现批量控制

2026-02-07 16:53

JavaScript 动态创建元素后立即消失的解决方案

2026-02-07 16:54

如何用字典映射和异常处理精简 Python 计算器代码

2026-02-07 17:00

如何在 PHP 中正确累加多维数组中所有数值并计算总和

2026-02-07 17:04

如何在 PHP 中高效查找 JSON 地理数据中距离最近的站点 ID

2026-02-07 17:10

如何正确累加多维数组中所有价格值并计算总金额

2026-02-07 17:27

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

878

2023.10.12