0

0

Java Stream 中 distinct() 方法产生重复元素的探究与解决

心靈之曲

心靈之曲

发布时间:2025-07-28 20:44:01

|

717人浏览过

|

来源于php中文网

原创

java stream 中 distinct() 方法产生重复元素的探究与解决

本文深入探讨了 Java Stream 中使用 distinct() 方法时出现重复元素的常见原因,即在流处理过程中修改了参与 equals() 和 hashCode() 计算的字段。通过示例代码和详细分析,阐述了这种行为背后的机制,并提供了避免此类问题的有效方法,包括使用不可变数据结构和调整操作顺序。

理解 distinct() 的工作原理

Java Stream 的 distinct() 方法用于去除流中的重复元素。它的工作原理是基于 Object.equals(Object) 方法来比较元素是否相等。更具体地说,它通常使用一个 HashSet 来跟踪已经遇到的元素。当遇到一个新的元素时,distinct() 会检查该元素是否已经存在于 HashSet 中。如果不存在,则将其添加到 HashSet 并将其包含在结果流中;否则,该元素将被丢弃。

关键在于,HashSet 的正确运作依赖于元素的 hashCode() 和 equals() 方法的实现。如果一个对象在添加到 HashSet 后,其参与 hashCode() 或 equals() 计算的字段发生了改变,那么 HashSet 将无法正确识别该对象是否已经存在,从而导致重复元素的出现。

导致重复元素的罪魁祸首:可变对象

最常见的问题是在流处理过程中修改了对象的状态,特别是那些参与 equals() 和 hashCode() 计算的字段。考虑以下示例:

立即学习Java免费学习笔记(深入)”;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.EqualsAndHashCode;

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

@Data
@AllArgsConstructor
@EqualsAndHashCode
class TestBean {
    String col;
}

public class DistinctExample {
    public static void main(String[] args) {
        List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()
                .distinct()
                .map(tt -> {
                    tt.col = tt.col + "_t";
                    return tt;
                })
                .collect(Collectors.toList());
        System.out.println(obj_list);
    }
}

在这个例子中,TestBean 类使用了 Lombok 的 @EqualsAndHashCode 注解自动生成了 equals() 和 hashCode() 方法,这些方法基于 col 字段进行比较。在流处理过程中,我们首先使用 distinct() 方法去除重复的 TestBean 对象,然后使用 map() 方法修改每个对象的 col 字段。

问题在于,当 distinct() 方法第一次遇到 TestBean("bb") 时,它会将其添加到内部的 HashSet 中。然后,map() 方法将其 col 字段修改为 "bb_t"。当 distinct() 方法再次遇到 TestBean("bb") 时,由于其 col 字段已经被修改,导致 HashSet 无法正确识别该对象已经存在,从而将其也添加到结果流中,最终导致重复元素的出现。

解决方案

为了避免这种问题,可以采取以下几种方法:

Rose.ai
Rose.ai

一个云数据平台,帮助用户发现、可视化数据

下载
  1. 使用不可变对象: 如果对象是不可变的,即其状态在创建后不能被修改,那么 hashCode() 和 equals() 的结果将始终保持一致,从而避免了重复元素的出现。Java 16 引入的 record 类型非常适合表示不可变数据:

    record TestBean(String col) {}
  2. 调整操作顺序: 将修改对象状态的操作放在 distinct() 方法之前或之后,确保在 distinct() 方法执行时,对象的状态是稳定的。

    List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()
            .map(tt -> {
                TestBean newTt = new TestBean(tt.col + "_t"); // Create a new object
                return newTt;
            })
            .distinct()
            .collect(Collectors.toList());

    或者:

    List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()
            .distinct()
            .collect(Collectors.toList())
            .stream() // Re-stream the distinct list
            .map(tt -> {
                tt.col = tt.col + "_t";
                return tt;
            })
            .collect(Collectors.toList());

    第一种方法在 map 操作中创建新的 TestBean 对象,避免了修改原始对象的状态。第二种方法先进行 distinct 操作,再对结果列表进行 map 操作。

  3. 重新实现 equals() 和 hashCode() 方法: 如果必须修改对象的状态,并且无法避免在 distinct() 方法中使用可变对象,那么可以重新实现 equals() 和 hashCode() 方法,确保它们只基于那些在流处理过程中不会被修改的字段进行比较。但这是一种比较复杂的方法,需要谨慎考虑。

总结

在使用 Java Stream 的 distinct() 方法时,需要特别注意可变对象带来的问题。通过使用不可变对象、调整操作顺序或重新实现 equals() 和 hashCode() 方法,可以有效地避免重复元素的出现,确保流处理的正确性。关键在于理解 distinct() 方法的工作原理,以及对象状态变化对 HashSet 的影响。 记住,避免在流处理过程中修改对象的状态是最佳实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

45

2026.01.06

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

44

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号