0

0

如何在 PySpark 中安全拼接包含 NULL 值的数组列(如 array)

聖光之護

聖光之護

发布时间:2026-01-25 08:57:08

|

365人浏览过

|

来源于php中文网

原创

如何在 PySpark 中安全拼接包含 NULL 值的数组列(如 array)

本文详解如何使用 `array()` 函数替代空字符串字面量,正确实现两个 array 类型列的拼接,避免因 null 值导致整列结果为 null 的问题。

在 PySpark 中,对 array 类型列执行 concat() 操作时,若任一输入列为 NULL,整个拼接结果将自动变为 NULL——这是 Spark 的默认行为(即“NULL 传染性”)。例如,当 country 列有值 [{US, 2024-01-08}] 而 reference 为 NULL 时,直接 concat(country, reference) 会返回 NULL,而非期望的原 country 数组。

根本原因在于:coalesce() 要求所有参数类型严格一致。若尝试用 lit("")(字符串)作为 coalesce(col("reference"), lit("")) 的备选值,会触发类型不匹配错误:ARRAY> 与 STRING 无法共存于同一 coalesce 表达式中。

✅ 正确解法是:用 array() 函数生成一个空数组(类型为 ARRAY>),作为 coalesce 的第二参数,确保类型兼容:

from pyspark.sql import functions as F

result_df = joined_df.select(
    "id",
    F.concat(
        "country",
        F.coalesce("reference", F.array())  # ✅ 返回同类型空数组,非字符串
    ).alias("concatenated_column")
)
? 补充说明:F.array() 默认生成空数组 [],其数据类型由上下文自动推断为与 reference 一致(即 array),因此可安全参与 coalesce 和 concat。

? 进阶建议:若需进一步健壮性(例如两列均为 NULL 时返回空数组而非 NULL),可嵌套处理:

图星人
图星人

好用的AI生图工具,百万免费商用图库

下载
F.concat(
    F.coalesce("country", F.array()),
    F.coalesce("reference", F.array())
)

⚠️ 注意事项:

  • 不要使用 lit([]) 或 lit(None) —— 它们无法被 Spark 正确解析为数组类型;
  • 避免 F.coalesce("reference", F.array().cast(...)) 显式 cast,通常无需且易出错;
  • array() 是零参数函数,不可传入空字符串或 None,否则报错。

最终输出将严格符合预期:

+---+------------------------------------------+
| id|concatenated_column                       |
+---+------------------------------------------+
|  1|[{"US","2024-01-08"},{"UK","2024-01-08"}] |
|  2|[{"US","2024-01-08"}]                      |
+---+------------------------------------------+

此方案简洁、类型安全、无需 UDF,是处理数组列 NULL 拼接的标准实践。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

307

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

381

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

234

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

437

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

278

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1493

2023.10.24

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

41

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号