Java正则表达式：利用正向先行断言精确分割字符串并保留多余空格

霞舞

发布时间：2025-11-09 17:39:01

846人浏览过

来源于php中文网

原创

Java正则表达式：利用正向先行断言精确分割字符串并保留多余空格

本文将探讨在java中使用正则表达式精确分割字符串的技巧，特别是在需要仅通过单个空格进行分割，同时保留连续多个空格中的一部分时。我们将介绍如何利用正向先行断言`\s(?=\s)`来实现这一高级分割逻辑，并通过代码示例和详细解释，帮助开发者理解并应用这种方法来处理复杂的字符串分割场景。

理解Java的String.split()方法

在Java中，String.split()方法是一个非常常用的工具，用于根据给定的正则表达式将字符串分割成一个字符串数组。其基本用法是String[] parts = sentence.split(regex);。

例如，如果我们有一个字符串"this is a sentence"，并使用" "（单个空格）作为分隔符，结果将是["this", "is", "a", "sentence"]。

默认分割行为与挑战

当遇到连续的多个分隔符时，split()方法的行为会根据正则表达式的不同而有所区别。

使用"\s+"（匹配一个或多个空白字符）作为分隔符时，所有连续的空白字符都会被视为一个分隔符，并被移除。例如，"a b".split("\s+")会得到["a", "b"]。
使用"\s"（匹配单个空白字符）作为分隔符时，它会尝试匹配每一个空白字符。然而，当连续的空白字符出现时，它的行为可能不总是我们期望的。例如，"a b".split("\s")可能会产生["a", "", "", "b"]，因为在第一个空格和第二个空格之间存在一个空字符串，依此类推。

本教程的挑战在于：如何实现一种分割，使得它只在“一个空白字符后面紧跟着一个非空白字符”时进行分割，从而在连续的多个空白字符中，只移除最后一个作为分隔符，而保留前面的空白字符作为其前一个词的一部分。

立即学习“Java免费学习笔记（深入）”；

解决方案：利用正向先行断言 \s(?=\S)

为了实现这种精确的分割逻辑，我们需要借助正则表达式中的正向先行断言（Positive Lookahead）。

正向先行断言 (?=...)

正向先行断言(?=X)表示“在当前位置的右侧必须能够匹配X，但X本身不作为匹配结果的一部分，也不消耗任何字符”。这意味着它是一个零宽度断言，只检查条件是否满足，而不实际匹配或捕获字符。

构建精确的分割正则表达式

我们的目标是：

匹配一个空白字符 (\s)。
这个空白字符后面必须紧跟着一个非空白字符 (\S)。

将这两部分结合起来，我们得到正则表达式"s(?=S)"。

Amazon Nova

亚马逊云科技（AWS）推出的一系列生成式AI基础模型

下载

\s: 匹配任何单个空白字符（包括空格、制表符、换行符等）。
(?=\S): 这是一个正向先行断言。它要求在\s匹配的空白字符之后，必须紧跟着一个非空白字符。但\S本身不会被包含在匹配结果中，也不会被消耗。

工作原理示例： 考虑字符串"this is a whitespace and I want to split it"。

"this" 后面是空格。\s匹配这个空格。(?=\S)检查后面是否是i（非空白字符）。条件满足，因此在此处分割。
"is" 后面是空格。\s匹配这个空格。(?=\S)检查后面是否是a（非空白字符）。条件满足，在此处分割。
"a" 后面是空格。\s匹配这个空格。(?=\S)检查后面是否是w（非空白字符）。条件满足，在此处分割。
"whitespace" 后面是三个连续的空格。
- 第一个空格：\s匹配。(?=\S)检查后面是第二个空格。\S不匹配空格。条件不满足。因此不在此处分割。
- 第二个空格：\s匹配。(?=\S)检查后面是第三个空格。\S不匹配空格。条件不满足。因此不在此处分割。
- 第三个空格：\s匹配。(?=\S)检查后面是a（非空白字符）。条件满足。因此在此处分割。
接下来的词，如"and", "I", "want", "to", "split" 后面都只有一个空格，且后面紧跟非空白字符，因此都会被正确分割。

通过这种方式，只有当一个空白字符是“最后一个”连续空白字符，且其后紧跟一个非空白字符时，它才会被用作分隔符。这有效地保留了连续空白字符中的前N-1个，并将它们附加到前一个单词上。

示例代码

import java.util.Arrays;
import java.util.regex.Pattern;

public class RegexSplitTutorial {

    public static void main(String[] args) {
        String sentence = "this is a whitespace   and I want to split it";

        // 使用正向先行断言进行分割
        String[] parts = sentence.split("\s(?=\S)");

        System.out.println("原始句子: "" + sentence + """);
        System.out.println("分割结果:");
        for (String part : parts) {
            System.out.println("[" + part + "]");
        }

        // 另一个例子：开头和结尾的空格
        String sentence2 = "  leading trailing  spaces ";
        String[] parts2 = sentence2.split("\s(?=\S)");
        System.out.println("
原始句子2: "" + sentence2 + """);
        System.out.println("分割结果2:");
        for (String part : parts2) {
            System.out.println("[" + part + "]");
        }
    }
}

预期输出：

原始句子: "this is a whitespace   and I want to split it"
分割结果:
[this]
[is]
[a]
[whitespace  ]
[and]
[I]
[want]
[to]
[split]
[it]

原始句子2: "  leading trailing  spaces "
分割结果2:
[  leading]
[trailing ]
[spaces ]

从输出中可以看出，"whitespace" 后面的两个空格被保留了，"leading" 前面的两个空格被保留了，"trailing" 后面的一个空格被保留了，而 spaces 后面的空格因为没有 S 跟随，所以不会触发分割。

考虑Unicode字符

默认情况下，\s和\S在Java中可能不完全支持所有Unicode空白字符。为了确保正则表达式能够正确处理所有Unicode字符集中的空白和非空白字符，可以添加(?U)嵌入式标志，或者使用Pattern.UNICODE_CHARACTER_CLASS选项。

修改后的分割代码如下：

// 方法一：在正则表达式中嵌入(?U)标志
String[] partsUnicode = sentence.split("(?U)\s(?=\S)");

// 方法二：使用Pattern.compile()和Pattern.UNICODE_CHARACTER_CLASS
// Pattern pattern = Pattern.compile("\s(?=\S)", Pattern.UNICODE_CHARACTER_CLASS);
// String[] partsUnicode = pattern.split(sentence);

在大多数现代Java应用中，使用(?U)通常是更简洁且有效的做法。

总结

通过巧妙地运用正则表达式中的正向先行断言\s(?=\S)，我们能够实现一种高级的字符串分割逻辑，即只在空白字符后面紧跟非空白字符时进行分割。这种方法允许我们精确控制哪些空白字符作为分隔符被移除，哪些被保留，从而满足了在特定场景下保留部分连续空白字符的需求。理解并掌握零宽度断言是提升正则表达式应用能力的关键一步。

Java 文件读取中正确过滤注释行与空行的完整实践指南

Java 中的原子性操作不保证可见性：volatile 不可替代

Java 8/9 中生成两个日期之间所有日期列表的完整实现

Java 实现双人回合制骨牌游戏：玩家与CPU交替对战教程

如何在Java中监控线程池的运行指标_继承ThreadPoolExecutor并收集ActiveCount发送到监控系统