将 Spark DataFrame 列值批量转换为小写（Java 实现）

心靈之曲

发布时间：2026-03-05 09:30:12

339人浏览过

来源于php中文网

原创

将 Spark DataFrame 列值批量转换为小写（Java 实现）

本文详解如何在 Apache Spark Java API 中将 DataFrame 某一字符串列的全部值统一转为小写，使用内置函数 lower() 配合 withColumn() 完成安全、高效、无副作用的列变换。

本文详解如何在 apache spark java api 中将 dataframe 某一字符串列的全部值统一转为小写，使用内置函数 `lower()` 配合 `withcolumn()` 完成安全、高效、无副作用的列变换。

在 Spark 的 Java 编程实践中，对字符串列进行大小写标准化（如统一转为小写）是数据清洗与预处理的常见需求。与 Scala 或 Python API 类似，Spark Java 提供了功能完备的列函数（Column Functions），其中 org.apache.spark.sql.functions.lower() 即为专用于字符串小写转换的核心函数。

该函数接受一个 Column 对象作为输入，返回一个新的 Column，其所有非空字符串值均被转换为小写；对于 null 值则保持不变，符合 SQL 语义与函数式编程的安全性约定。

✅ 正确用法：withColumn() + lower()

以下为完整、可直接运行的 Java 示例代码：

import static org.apache.spark.sql.functions.lower;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

// 假设已初始化 SparkSession
SparkSession spark = SparkSession.builder()
    .appName("ToLowercaseExample")
    .master("local[*]")
    .getOrCreate();

// 示例 DataFrame（实际中可能来自 CSV/Parquet 等）
Dataset<Row> df = spark.read().option("header", "true").csv("path/to/data.csv");
// 或手动构建测试数据：
// Dataset<Row> df = spark.createDataFrame(Arrays.asList(
//     RowFactory.create("foo", "NZ", "salary", "Auckland", 15.0),
//     RowFactory.create("bar", "Aus", "investment", "Melbourne", 12.5)
// ), schema);

// 关键步骤：将 "city" 列所有值转为小写，并覆盖原列
Dataset<Row> dfLowercase = df.withColumn("city", lower(df.col("city")));

dfLowercase.show();
// 输出：
// +----+-------+----------+---------+-----+
// |name|country|       src|     city|debit|
// +----+-------+----------+---------+-----+
// | foo|     NZ|    salary|auckland| 15.0|
// | bar|    Aus|investment|melbourne| 12.5|
// +----+-------+----------+---------+-----+

⚠️ 注意事项

列名区分大小写：df.col("city") 中的 "city" 必须与 DataFrame 实际列名完全一致（包括大小写），否则抛出 AnalysisException。
不可变性原则：withColumn() 返回新 DataFrame，原始 df 不会被修改。务必赋值给新变量（如 dfLowercase），否则变更丢失。
空值安全：lower() 对 null 输入返回 null，无需额外空值检查。
类型校验：仅对 StringType 列生效；若对数值或二进制列调用，运行时将报错。建议在转换前通过 df.schema().apply("city").dataType() 校验数据类型。
性能提示：该操作为 Catalyst 优化器可识别的“表达式下推”，底层会编译为高效字节码，无需 UDF，性能优于自定义函数。

? 扩展：转大写与其他列

同理，转大写使用 upper() 函数：

Supercreator

AI视频创作编辑器，几分钟内从构思到创作。

下载

立即学习“Java免费学习笔记（深入）”；

import static org.apache.spark.sql.functions.upper;
df = df.withColumn("country", upper(df.col("country"))); // "nz" → "NZ"

如需同时处理多列，可链式调用：

df = df.withColumn("city", lower(df.col("city")))
       .withColumn("src", lower(df.col("src")))
       .withColumn("country", upper(df.col("country")));

✅ 总结

在 Spark Java 中实现列值小写转换，核心只需两步：导入 lower 静态方法，再结合 withColumn 替换目标列。该方式简洁、标准、高效，且完全兼容 Spark SQL 优化机制。避免使用低效的 UDF 或手动 map() 操作——始终优先选用内置函数，这是 Spark 工程实践的最佳路径。

如何使用Java 8的Optional类避免空指针_代码优雅处理指南

如何利用Java的Base64.getMimeEncoder进行长文本编码_MIME协议适配

VS Code如何配置Java开发环境_轻量级插件安装与调试说明

Java中实现灰度图像着色：基于HSB色彩模型的高效彩色化方法

如何解决Java反射中的非法访问异常_setAccessible(true)的使用场景

相关标签:

java sql 数据类型 NULL 字符串 map 对象 column spark apache

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：详解ConcurrentSkipListMap_基于跳表结构实现的高并发有序Map 下一篇：Java里的ArrayDeque为什么不推荐存储null_容器一致性原则

作者最新文章

Bootstrap 5 响应式标签页与桌面端内容显示兼容方案

2026-03-03 15:52

抖音开直播怎么挂小黄车卖东西？自己怎么开直播卖东西

2026-03-03 16:00

Spring Batch 多任务并发时 JDBC 连接池耗尽问题解析与解决方案

2026-03-03 16:00

抖音转赠的团购券可以退吗怎么退？抖音团购验完券还可以退款吗

2026-03-03 16:05

萤石云视频怎么设置消息通知提示音

2026-03-03 16:10

PHP 动态设置多层嵌套数组值的正确方法（支持未知深度键路径）

2026-03-03 16:57

因性价比太高被撤？《生化危机世代包》将于月底下架

2026-03-03 17:00

如何在页面卸载前可靠发送 HTTP 请求而不触发提示框

2026-03-03 17:08

Go 语言通道操作符设计原理：为何接收必须显式使用赋值符号

2026-03-03 17:17

如何在 React Router v6 中使用 Form 组件正确提交文件数据

2026-03-03 17:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1090

2023.10.12

SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

340

2023.10.27

SQL中months_between使用方法

在SQL中，MONTHS_BETWEEN 是一个常见的函数，用于计算两个日期之间的月份差。想了解更多SQL的相关内容，可以阅读本专题下面的文章。

380

2024.02.23

SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容，可以阅读本专题下面的文章。

2008

2024.03.06

sql procedure语法错误解决方法

sql procedure语法错误解决办法：1、仔细检查错误消息；2、检查语法规则；3、检查括号和引号；4、检查变量和参数；5、检查关键字和函数；6、逐步调试；7、参考文档和示例。想了解更多语法错误的相关内容，可以阅读本专题下面的文章。

379

2024.03.06

oracle数据库运行sql方法

运行sql步骤包括：打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果，错误消息或退出sql plus。想了解更多oracle数据库的相关内容，可以阅读本专题下面的文章。

1560

2024.04.07

sql中where的含义

sql中where子句用于从表中过滤数据，它基于指定条件选择特定的行。想了解更多where的相关内容，可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name；该语句将永久删除指定表的表和数据。想了解更多sql的相关内容，可以阅读本专题下面的文章。

438

2024.04.29

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板