Java：高效提取字符串中指定长度单词的方法

碧海醫心

发布时间：2025-09-03 18:41:15

939人浏览过

来源于php中文网

原创

Java：高效提取字符串中指定长度单词的方法

本文详细介绍了在Java中如何高效地从输入字符串中提取指定长度的单词。通过利用String.split()方法将句子分解为单词数组，并结合Java 8 Stream API的filter()和toArray()操作，可以实现一个简洁、可读且功能强大的解决方案，从而轻松筛选出符合特定长度要求的单词。

任务概述

在编程实践中，我们经常需要处理文本数据。其中一个常见任务是从一个包含多个单词的句子中，根据指定的单词长度，筛选并返回所有符合条件的单词。例如，给定字符串“monday is a new day”和长度3，我们期望得到{"new", "day"}。

传统的实现方式可能涉及手动遍历字符串，判断字符是否为空格来识别单词边界，然后截取子字符串并检查其长度。这种方法通常代码量较大，逻辑复杂，且容易出错，尤其是在处理多个连续空格或字符串开头/结尾的空格时。

推荐解决方案：结合split()与Stream API

Java 8引入的Stream API为处理集合数据提供了强大而简洁的工具。结合String.split()方法，我们可以非常优雅地解决这个问题。

核心思路

分解字符串： 使用String.split()方法将输入的句子按空格分割成一个单词数组。
创建流： 将单词数组转换为一个流（Stream）。
过滤单词： 使用流的filter()操作，根据每个单词的长度是否等于目标长度进行筛选。
收集结果： 使用toArray()操作将过滤后的单词收集到一个新的字符串数组中。

示例代码

以下是实现上述逻辑的Java代码：

公文宝

AI公文写作神器，一键生成合规材料

下载

import java.util.Arrays;
import java.util.Objects; // 用于Objects.requireNonNullElseGet，处理null或空字符串

public class WordExtractor {

    /**
     * 从给定字符串中提取所有指定长度的单词。
     *
     * @param sentence   输入的句子字符串。
     * @param wordLength 目标单词的长度。
     * @return 包含所有符合长度要求的单词的字符串数组。
     *         如果输入句子为空或null，则返回空数组。
     */
    public String[] findWordsByLength(String sentence, int wordLength) {
        // 1. 处理null或空字符串输入，避免NullPointerException
        // Objects.requireNonNullElseGet(sentence, () -> "") ensures sentence is not null
        // .trim() removes leading/trailing spaces
        // .split("\s+") splits by one or more whitespace characters
        String[] words = Objects.requireNonNullElseGet(sentence, () -> "")
                                .trim()
                                .split("\s+");

        // 2. 将单词数组转换为流，并进行过滤和收集
        return Arrays.stream(words)
                     .filter(word -> !word.isEmpty() && word.length() == wordLength) // 过滤空字符串和符合长度的单词
                     .toArray(String[]::new); // 将结果收集到新的字符串数组中
    }

    public static void main(String[] args) {
        WordExtractor extractor = new WordExtractor();

        // 示例1
        String s1 = "Monday is a new day";
        int n1 = 3; // 3字母单词
        String[] result1 = extractor.findWordsByLength(s1, n1);
        System.out.println("Input: "" + s1 + "", Length: " + n1 + " -> Result: " + Arrays.toString(result1)); // 预期: {"new", "day"}

        // 示例2
        String s2 = "Monday is a new day";
        int n2 = 2; // 2字母单词
        String[] result2 = extractor.findWordsByLength(s2, n2);
        System.out.println("Input: "" + s2 + "", Length: " + n2 + " -> Result: " + Arrays.toString(result2)); // 预期: {"is"}

        // 示例3：包含多个空格
        String s3 = "  hello   world  java  ";
        int n3 = 5;
        String[] result3 = extractor.findWordsByLength(s3, n3);
        System.out.println("Input: "" + s3 + "", Length: " + n3 + " -> Result: " + Arrays.toString(result3)); // 预期: {"hello", "world"}

        // 示例4：空字符串或null输入
        String s4 = "";
        int n4 = 3;
        String[] result4 = extractor.findWordsByLength(s4, n4);
        System.out.println("Input: "" + s4 + "", Length: " + n4 + " -> Result: " + Arrays.toString(result4)); // 预期: {}

        String s5 = null;
        int n5 = 3;
        String[] result5 = extractor.findWordsByLength(s5, n5);
        System.out.println("Input: "" + s5 + "", Length: " + n5 + " -> Result: " + Arrays.toString(result5)); // 预期: {}
    }
}

代码解析

Objects.requireNonNullElseGet(sentence, () -> ""): 这是一个健壮性处理，确保输入的sentence参数即使为null，也不会导致NullPointerException。如果sentence是null，它会替换为一个空字符串""。
.trim(): 调用trim()方法去除字符串开头和结尾的空白字符。这有助于确保split()方法不会产生空字符串作为单词（例如，" hello"经过split(" ")可能得到{"", "hello"}）。
.split("\s+"): 这是关键一步。
- split()方法根据给定的正则表达式将字符串分割成子字符串数组。
- "\s+"是一个正则表达式，表示匹配一个或多个空白字符（包括空格、制表符、换行符等）。使用"\s+"比简单的" "更健壮，可以正确处理句子中包含多个连续空格的情况（例如"hello world"）。
- 此操作将返回一个String[]，其中每个元素都是一个单词。
Arrays.stream(words): 将上一步得到的words数组转换为一个Stream。Stream API的所有操作都基于此流进行。
.filter(word -> !word.isEmpty() && word.length() == wordLength): 这是流的中间操作，用于过滤元素。
- word -> !word.isEmpty()：过滤掉可能由split()操作产生的空字符串。尽管trim()和split("\s+")组合通常能避免这种情况，但多一层防御总是有益的。
- word.length() == wordLength：这是核心过滤条件，只保留长度与wordLength相等的单词。
.toArray(String[]::new): 这是流的终止操作，将过滤后的流中的所有元素收集到一个新的String数组中。String[]::new是构造函数引用，用于指定创建数组的类型。

最佳实践与注意事项

描述性命名： 在代码中，使用具有描述性的方法名（如findWordsByLength而非howManyWord）和参数名（如wordLength而非n）至关重要。这大大提高了代码的可读性和可维护性，让其他开发者（或未来的你）能一眼理解代码的功能。
正则表达式的选用：
- split(" ")：只按单个空格分割。如果字符串中有多个连续空格（如"hello world"），split(" ")会产生空字符串{"hello", "", "world"}。
- split("\s+")：按一个或多个空白字符分割。这是更推荐的做法，因为它能更鲁棒地处理各种空白字符（空格、制表符、换行符）以及连续的空白字符，避免产生空字符串。
处理空字符串或null输入： 在实际应用中，输入字符串可能为空或null。在调用split()之前，进行null检查和空字符串处理是良好的编程习惯，以避免运行时错误。Objects.requireNonNullElseGet是一个优雅的解决方案。
性能考量： 对于大多数常见的字符串长度和单词数量，Stream API的性能非常优秀。它在内部进行了优化，并且代码表达力强。对于极端性能敏感的场景（例如处理GB级别文本且需要微秒级响应），可能需要考虑更底层的字符遍历优化，但这种情况相对较少。
标点符号处理： 如果单词中可能包含标点符号（如"day."），而你希望只匹配纯字母单词，你可能需要在split()之前或filter()之后额外添加一步处理，例如使用word.replaceAll("[^a-zA-Z]", "")来去除标点符号。本教程的示例假定单词不含标点。

总结

通过结合String.split()方法和Java 8 Stream API，我们可以用非常简洁、高效且易于理解的方式，从字符串中提取指定长度的单词。这种现代Java编程风格不仅提升了代码质量，也降低了维护成本。掌握这种模式对于处理文本数据和利用Java函数式编程特性至关重要。

立即学习“Java免费学习笔记（深入）”；

Java中实现大小写不敏感、支持特殊字符的精确单词替换

如何在 Android Studio 中高效存储 300+ 个带释义的英文单词

如何在 Apache POI 中精准定位并插入图片到 Word 文档指定文本后

在Java中对象头的mark word有什么用_Java锁标记位与GC标记关系说明

解决Docx4J v3.3.3生成Word文档“不可读内容”错误的定制化方案

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板