深入解析HashSet底层原理_HashMap如何支撑HashSet的存储逻辑

P粉602998670

发布时间：2026-02-24 17:51:11

778人浏览过

来源于php中文网

原创

hashset.add()实际调用hashmap.put(key, present)，present为静态占位对象；去重依赖hashmap的key哈希与equals判断；不保证顺序因索引由扰动hash计算；扩容依赖hashmap.resize()，需注意线程安全与自定义类的hashcode/equals配套重写。

深入解析hashset底层原理_hashmap如何支撑hashset的存储逻辑

HashSet.add() 调用的是 HashMap.put()，但 value 固定为 PRESENT

你往 HashSet 里加一个元素，比如 set.add("hello")，表面看是集合操作，实际执行的是底层 HashMap 的 put("hello", PRESENT)。这个 PRESENT 是个静态空对象（private static final Object PRESENT = new Object()），不存业务数据，纯粹占位——它让 HashMap 的 key 成了唯一载体，value 变成“有没有”的信号灯。

所有 add()、contains()、remove() 都在跟 HashMap 的 key 打交道，value 永远是同一个 PRESENT
所以 HashSet 的去重逻辑完全复用 HashMap 的 key 冲突判断：先比 hashCode()，再调 equals()
如果你自定义类放进 HashSet 却没重写 hashCode() 和 equals()，两个逻辑相等的对象可能被当成不同元素——这是最常踩的坑

为什么 HashSet 不允许重复，但不保证顺序？

因为它的底层数组（table）索引由 (n - 1) & hash 计算得出，而 hash 是经过扰动处理的 hashCode() 值，不是原始值。这个运算结果只服务于快速定位，和插入顺序、字典序、大小关系全无关联。

JDK 8 中，当某个桶（bucket）链表长度 ≥ 8 且数组容量 ≥ 64 时，会转成红黑树——但这只是为了查得快，不影响遍历顺序
HashSet.iterator() 遍历的是 HashMap 的 keySet() 迭代器，本质是按 table 数组下标从左到右、再按每个桶内节点顺序（链表或树序）走，不是插入顺序
如果需要有序，别硬改 HashSet，直接换 LinkedHashSet（保持插入序）或 TreeSet（自然序/定制序）

扩容时 HashMap 重建 table，HashSet 里的元素会“搬家”

HashSet 没有自己的扩容逻辑，它完全依赖 HashMap 的 resize()。默认初始容量 16，负载因子 0.75，意味着第 13 个元素插入时就会触发扩容——数组长度翻倍（变成 32），所有已有元素重新计算索引、搬进新数组。

68爱写

专业高质量AI4.0论文写作平台，免费生成大纲，支持无线改稿

下载

每次扩容都要遍历全部已有元素、重新哈希、重新链表/树化，是 O(n) 开销；高频增删场景要注意控制初始容量，比如 new HashSet(expectedSize / 0.75f)
扩容不是线程安全的，多线程往同一个 HashSet 写，可能死循环（JDK 7）或数据丢失（JDK 8+），必须外加同步，或改用 Collections.synchronizedSet() / ConcurrentHashMap.newKeySet()
注意：HashSet 的 size() 是 O(1)，但 toArray() 是 O(n)，且返回数组不反映后续修改

自定义类做 HashSet 元素时，hashCode() 和 equals() 必须配套重写

只重写 hashCode() 或只重写 equals() 都不行。JVM 要求：如果两个对象 equals() 返回 true，它们的 hashCode() 必须相等；反之不成立。

反例：Student 类只重写了 equals() 比较 name+age，但 hashCode() 没重写 → 每个实例哈希值都不同 → 同样内容的两个 Student 在 HashSet 里被当成不同元素
IDE（如 IntelliJ）能一键生成合规的 hashCode() 和 equals()，字段选全、别漏掉 null 判断就行
使用 Lombok 的 @EqualsAndHashCode 也行，但要确认它覆盖的字段和你业务语义一致；若含可变字段（如 status），放进 HashSet 后再改，会导致无法 remove() 或 contains() ——这是隐性陷阱

HashSet 的关键不在“集”，而在“哈希”；它的简洁是借来的，它的性能是压在 HashMap 肩上的。真正难的从来不是怎么用，而是当你发现元素没去重、遍历顺序诡异、并发出错时，能不能立刻想到——该去看 HashMap 的 hash 计算、桶分布、扩容阈值，或者检查那个被忽略的 hashCode() 实现。

相关标签:

jvm Static Object NULL 循环 private 线程多线程并发对象 table ide

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Java中对象的生命周期如何管理_Java对象创建与销毁解析下一篇：什么是Java中的内存泄露排查流程_jmap导出dump与MAT工具分析

作者最新文章

Edge浏览器怎么读网页_Edge浏览器大声朗读

2026-02-24 17:54

静态方法 (Static Method)_无需实例化即可调用的行为限制

2026-02-24 17:57

Golang命令模式实现异步任务的排队执行与优先级调度

2026-02-24 17:57

Chrome浏览器怎么看密码_谷歌浏览器密码管理

2026-02-24 17:58

闲鱼怎么发布二手商品_闲鱼卖家发布闲置物品教程

2026-02-24 17:58

什么是面向对象编程 (OOP)_从过程导向到对象导向的思维转变

2026-02-24 17:58

途虎养车怎么设置发票信息_途虎保养开票抬头管理

2026-02-24 17:59

gRPC实现自定义的编解码器：处理私有二进制格式

2026-02-24 18:00

猎豹浏览器怎么切换渲染内核_猎豹浏览器极速模式切换方法

2026-02-24 18:01

如何在Golang中使用errors包处理错误_Golang errors包应用技巧

2026-02-24 18:01

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

246

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

866

2024.03.01

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

719

2023.08.10

Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧，包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例，帮助学习者掌握如何构建高性能、多任务并发的 Python 应用。

371

2025.12.24

java多线程相关教程合集

本专题整合了java多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

C++多线程相关合集

本专题整合了C++多线程相关教程，阅读专题下面的的文章了解更多详细内容。

2026.01.21

C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧，包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目，帮助开发者掌握如何在 C# 中构建高并发、低延迟的异步系统，提升应用性能和响应速度。

100

2026.02.06

Golang 生态工具与框架：扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路，涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式，帮助开发者构建高效、可维护的 Go 工程体系，并提升团队协作与交付效率。

2026.02.24

Golang 性能优化专题：提升应用效率

《Golang 性能优化专题》聚焦 Go 应用在高并发与大规模服务中的性能问题，从 profiling、内存分配、Goroutine 调度、GC 机制到 I/O 与锁竞争逐层分析。结合真实案例讲解定位瓶颈的方法与优化策略，帮助开发者建立系统化性能调优思维，在保证代码可维护性的同时显著提升服务吞吐与稳定性。

2026.02.24

热门下载

网站特效

网站源码

网站素材

前端模板