0

0

Java集合框架怎样选择合适的集合初始化容量_Java集合框架性能优化的基础技巧

絕刀狂花

絕刀狂花

发布时间:2025-08-08 18:53:09

|

466人浏览过

|

来源于php中文网

原创

选择java集合的初始化容量核心在于避免频繁扩容带来的性能开销。1. arraylist应根据预估元素数量n直接初始化为new arraylist(n),避免多次扩容复制;2. hashmap/hashset需结合负载因子(默认0.75)计算初始容量,公式为(int)(n / 0.75f) + 1,以减少rehashing开销;3. 扩容影响性能因涉及数组复制(arraylist)或重新哈希(hashmap),均为o(n)操作,尤其在大数据量或高并发下代价高昂;4. 预估容量可基于已知数据量、历史趋势或业务峰值,权衡内存使用与性能;5. 其他优化包括:选用合适集合类型、合理实现hashcode和equals、避免循环中创建对象、使用原始类型集合库、善用stream api与不可变集合。综上,合理设置初始容量并结合多维度优化策略,能显著提升集合操作效率。

Java集合框架怎样选择合适的集合初始化容量_Java集合框架性能优化的基础技巧

选择Java集合的初始化容量,核心在于平衡内存占用与性能开销。说白了,就是尽量避免集合在运行过程中频繁地进行“扩容”操作,因为每一次扩容都意味着一次资源消耗,尤其是在处理大量数据时,这笔账算下来可不小。

解决方案

理解集合初始化容量的重要性,首先要明白集合内部的工作原理。无论是

ArrayList
HashMap
还是
HashSet
,它们底层都依赖于数组。当集合中的元素数量达到或超过其当前容量时,内部数组就需要被替换成一个更大的新数组,并将所有现有元素复制过去。这个过程,尤其是数据复制,是相当耗时的,时间复杂度通常是O(n)。

ArrayList
的容量考量:
ArrayList
的默认初始容量是10。当元素数量超过这个容量时,它会进行扩容,通常是扩容到原容量的1.5倍(Java 8及以后)。如果你能预估集合将要存储的元素大致数量,比如你知道会有1000个元素,那么直接初始化
new ArrayList<>(1000)
,就能省去多次扩容和数据复制的开销。这就像你搬家,如果知道有多少东西,一次性租个够大的车总比小车来回跑几次要省心。

立即学习Java免费学习笔记(深入)”;

HashMap
HashSet
的容量与负载因子考量:
HashMap
HashSet
HashSet
底层就是
HashMap
)的容量选择稍微复杂一些,因为它们还涉及到“负载因子”(load factor)的概念。默认的初始容量是16,默认负载因子是0.75。这意味着当元素数量达到
容量 * 负载因子
(16 * 0.75 = 12)时,
HashMap
就会触发扩容,将容量翻倍,并重新计算所有元素的哈希值并重新分配到新的桶中(这个过程叫rehashing)。

为了避免频繁的rehashing,你需要根据预期的元素数量和负载因子来计算一个合适的初始容量。一个常用的计算公式是:

initialCapacity = (int) (expectedSize / loadFactor) + 1
。例如,如果你预计有100个元素,使用默认负载因子0.75,那么合适的初始容量就是
(int) (100 / 0.75) + 1 = 133 + 1 = 134
。这样,在插入第100个元素时,就不会立即触发扩容。

总结一下:

  • ArrayList
    :
    预估元素数量
    N
    ,直接
    new ArrayList<>(N)
  • HashMap
    /
    HashSet
    :
    预估元素数量
    N
    ,使用默认负载因子0.75,计算
    initialCapacity = (int) (N / 0.75F) + 1
    ,然后
    new HashMap<>(initialCapacity)

当然,过度估计容量也会导致内存浪费。所以,这是一个平衡的艺术。对于小型或生命周期短的集合,默认容量通常足够;但对于大型、性能敏感或生命周期长的集合,投入时间去估算和设置初始容量,绝对是值得的。

为什么集合扩容会影响性能?深入理解其内部机制

说实话,很多人在写代码时,对集合的默认容量和扩容机制并不是特别上心,觉得“反正它自己会扩容”。但当系统面临高并发或大数据量场景时,这些看似微不足道的细节,却可能成为性能瓶颈的元凶。

我们来拆解一下扩容的“幕后操作”:

墨狐AI
墨狐AI

5分钟生成万字小说,人人都是小说家!

下载

ArrayList
的扩容:
ArrayList
的底层就是一个普通的Java数组。当你往
ArrayList
里添加元素,当内部数组满了的时候,
ArrayList
会做几件事:

  1. 创建一个新数组: 通常是当前容量的1.5倍大小。
  2. 数据复制: 使用
    System.arraycopy()
    (或者
    Arrays.copyOf
    ,底层也是
    System.arraycopy
    )把旧数组里的所有元素复制到新数组中。
  3. 旧数组废弃: 旧的数组会被GC回收。

System.arraycopy()
虽然是JNI调用,效率很高,但它毕竟是个O(n)操作。如果你的
ArrayList
需要从10扩容到15,再到22,再到33……这个复制操作就会反复发生。想象一下,一个装着几万甚至几十万元素的
ArrayList
,每次扩容都要复制这么多数据,这CPU和内存的消耗是实实在在的。特别是在高并发环境下,这种瞬间的性能抖动可能会导致请求响应时间变长,甚至引发连锁反应。

HashMap
的扩容(Rehashing):
HashMap
的扩容就更复杂、更“昂贵”了。它的底层是一个“桶数组”(
Node[] table
),每个桶里可能是一个链表或者红黑树,用于存储哈希冲突的元素。当元素数量达到阈值时,
HashMap
会:

  1. 创建一个新桶数组: 容量翻倍。
  2. 重新计算哈希值并重新分配: 这是最关键、最耗时的一步。
    HashMap
    会遍历旧桶数组中的每一个元素(包括链表或红黑树中的所有节点),为每个元素重新计算哈希值,然后根据新的容量和哈希值,将其放到新桶数组的正确位置。
    • 这个过程不仅仅是复制,它涉及到大量的哈希计算和链表/树操作。如果你的
      hashCode()
      方法写得不好,导致大量哈希冲突,那么这个rehashing过程会更加漫长和痛苦。
  3. 旧桶数组废弃: 等待GC。

所以,

HashMap
的rehashing不仅是内存复制,更是计算密集型的操作。我曾见过因为
HashMap
频繁扩容导致服务响应时间飙升的案例,排查下来发现就是没有合理设置初始容量,导致在业务高峰期不断地进行rehashing。

总而言之,每一次扩容,都是一次对资源的“征用”和“搬迁”,能避免就尽量避免。

如何预估集合的容量?兼顾内存与性能的平衡点

预估集合容量,听起来有点像“算命”,但其实它更多的是一种基于经验和数据分析的工程实践。我的经验告诉我,这通常不是一个精确的科学,而是一个艺术,需要在“够用”和“不浪费”之间找到一个甜点。

1. 最理想的情况:你清楚知道元素数量 如果你的数据源是固定的,比如从数据库查询结果、文件行数或者API响应中获取的数据,并且你知道大概会有多少条记录,那么直接使用这个数量来初始化集合是最优解。

  • List names = new ArrayList<>(resultSet.size());
  • Map userMap = new HashMap<>(usersFromFile.size() / 0.75 + 1);

2. 基于历史数据或业务场景估算 很多时候,我们无法精确知道未来的数据量,但可以根据历史数据趋势或者业务逻辑来做一个合理的估算。

  • 平均值: 过去一周每天处理的订单平均数量是多少?就用这个平均值作为初始容量。
  • 峰值考虑: 如果业务有明显的波峰波谷,考虑在峰值数据量上稍微留点余地。比如平时1000个,高峰可能2000个,那就初始化2000或2500。
  • “拍脑袋”法则: 如果实在没数据,又不想用默认值,对于
    ArrayList
    ,我个人习惯性地会给个100或者200,因为很多时候集合的元素数量不会特别小,也不会特别大。对于
    HashMap
    ,我会根据其键的唯一性来估算。

3. 负载因子的灵活运用(针对

HashMap
/
HashSet
默认的0.75负载因子是一个很好的通用值,它在空间和时间效率之间做了不错的平衡。但如果你对内存特别敏感,或者对查找性能有极高要求,可以考虑调整负载因子:

  • 降低负载因子(例如0.5): 意味着
    HashMap
    会在更早的时候扩容,桶数组会更稀疏,哈希冲突会减少,查找性能会更好。但代价是更多的内存占用和更频繁的扩容。
  • 提高负载因子(例如0.9): 意味着
    HashMap
    会允许桶数组更满才扩容,减少内存占用和扩容次数。但代价是哈希冲突增加,链表/树变长,查找性能可能下降。

我很少去改动默认的负载因子,除非有非常明确的性能瓶颈或内存限制。因为一旦改了,你需要更深入地理解你的数据分布和哈希函数,否则可能会适得其反。

4. 实在不确定?那就先用默认值,然后观察和优化 这其实是很多项目初期会采取的策略。先用默认值,上线后通过监控工具(如JVisualVM、Arthas等)观察JVM的GC情况、内存使用以及集合的扩容事件。如果发现某个集合频繁扩容,或者在扩容时导致了明显的GC暂停,那么这就是一个明确的优化信号,这时再回头调整其初始容量。这种迭代优化的方式,在不确定性较高的情况下,反而更稳妥。

平衡点就在于:既要避免不必要的扩容开销,又要避免过度浪费内存。我的建议是:在合理范围内,宁可稍微高估一点,也不要严重低估。

除了初始化容量,还有哪些Java集合性能优化的基础技巧?

集合初始化容量只是性能优化的一个点,Java集合框架本身就充满了各种设计哲学和优化空间。作为一个开发者,除了容量,还有一些基础但至关重要的技巧值得我们深入思考和实践。

1. 选择正确的集合类型: 这大概是集合优化里最基础,也是最容易被忽视的一点。不同的集合类型有不同的底层实现和性能特性,选择与业务场景最匹配的,事半功倍。

  • ArrayList
    vs
    LinkedList
    :
    • ArrayList
      :基于动态数组,随机访问(
      get(index)
      )O(1),末尾添加O(1)(均摊),中间插入/删除O(n)。适用于频繁随机访问、顺序遍历的场景。
    • LinkedList
      :基于双向链表,插入/删除O(1)(如果知道节点位置),随机访问O(n)。适用于频繁在两端插入/删除,但随机访问不多的场景(例如队列、栈)。
  • HashSet
    vs
    TreeSet
    vs
    LinkedHashSet
    :
    • HashSet
      :基于哈希表,提供O(1)的平均查找、添加、删除性能,不保证顺序。适用于需要快速判断元素是否存在、且不关心顺序的场景。
    • TreeSet
      :基于红黑树,提供O(log n)的性能,元素有序。适用于需要对元素进行排序的场景。
    • LinkedHashSet
      :结合了哈希表和链表,提供O(1)性能,并能保持插入顺序。适用于需要快速查找且保持插入顺序的场景。
  • HashMap
    vs
    TreeMap
    vs
    LinkedHashMap
    vs
    ConcurrentHashMap
    :
    • HashMap
      :基于哈希表,O(1)平均性能,不保证顺序。最常用。
    • TreeMap
      :基于红黑树,O(log n)性能,键有序。适用于需要对键进行排序的场景。
    • LinkedHashMap
      :结合了哈希表和链表,O(1)性能,保持插入顺序或访问顺序。适用于需要缓存淘汰策略(如LRU)或保持顺序的场景。
    • ConcurrentHashMap
      :线程安全的哈希表,高并发下性能优异。适用于多线程共享
      Map
      的场景,比
      Collections.synchronizedMap()
      Hashtable
      性能更好。

2. 合理实现

hashCode()
equals()
这对于所有基于哈希的集合(
HashMap
,
HashSet
,
Hashtable
,
LinkedHashMap
,
ConcurrentHashMap
)至关重要。如果你的自定义对象作为键或元素,而
hashCode()
实现得很糟糕(比如总是返回一个固定值),那么所有元素都会被放到同一个桶里,导致哈希表退化成链表,查找性能从O(1)直接降到O(n)。这比没设置初始容量带来的性能损失要大得多,而且更隐蔽。记住:如果两个对象
equals
为true,那么它们的
hashCode
必须相等;反之则不一定。

3. 考虑使用原始类型集合库: Java的泛型不支持原始类型(如

int
,
long
,
double
),所以
ArrayList
实际上存储的是
Integer
对象。这意味着自动装箱和拆箱的开销,以及额外的内存占用。对于需要处理大量原始类型数据的场景,可以考虑使用第三方库,如FastUtil或Trove,它们提供了针对原始类型的集合实现,可以显著减少内存占用和GC压力。

4. 避免在循环中创建不必要的对象: 这虽然不是集合本身的问题,但在使用集合时经常会犯。例如,在循环中不断地

new String()
new SomeObject()
,然后添加到集合中。如果这些对象是可复用的,或者可以通过其他方式避免创建,那么GC的压力会小很多。
StringBuilder
就是典型的例子,用于拼接字符串时避免创建大量中间
String
对象。

5. 利用Java 8+的Stream API和并行流: Stream API提供了更声明式、更简洁的代码风格,在某些场景下也能带来性能提升,尤其是在配合并行流(

parallelStream()
)处理大数据集时,可以充分利用多核CPU的优势。但需要注意的是,并行流并不是万能药,对于小数据集或计算密集度不高的操作,并行化反而可能引入额外的线程管理开销,得不偿失。

6. 使用不可变集合: 如果你的集合在创建后不再需要修改,可以考虑使用Java 9+提供的

List.of()
,
Set.of()
,
Map.of()
或Guava等库提供的不可变集合。不可变集合是线程安全的,并且由于其不可变性,有时内部实现可以进行额外的优化,例如更紧凑的内存布局。

总的来说,Java集合框架的性能优化是一个系统性的工程,初始化容量只是冰山一角。深入理解每种集合的特性,结合实际业务场景,并善用各种工具进行分析和调优,才能真正写出高效、健壮的代码。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

844

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

742

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

740

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

400

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

431

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16926

2023.08.03

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP自制框架
PHP自制框架

共8课时 | 0.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号