
本文介绍一种内存友好、时间复杂度为 o(n) 的方式,使用 hashmap 按 id 归并多个 sheet 中的 data 对象,并对 amount1/2/3 字段执行累加求和,确保所有 id 不遗漏。
在实际业务中(如 Excel 多工作表汇总、微服务间数据对账),我们常需将多个来源的同类结构数据(如 Data 对象集合)按唯一标识(如 id)进行横向聚合。核心诉求是:保留全部出现过的 ID,同 ID 的数值字段(amount1/amount2/amount3)逐项相加,原始数据不可变。
下面是一种高效、清晰且符合 Java 最佳实践的实现方案:
✅ 推荐实现:单次遍历 + HashMap 索引聚合
public static List mergeSheetsBySum(Map> sheetMap) { // 使用 id 作为 key,避免重复查找;value 为累积后的 Data 实例 Map accumulator = new HashMap<>(); // 遍历所有 sheet(无论多少个) for (List dataList : sheetMap.values()) { for (Data data : dataList) { int id = data.getId(); Data merged = accumulator.get(id); if (merged == null) { // 首次遇到该 id:深拷贝构造新对象(保护原始数据) accumulator.put(id, Data.builder() .id(data.getId()) .amount1(data.getAmount1()) .amount2(data.getAmount2()) .amount3(data.getAmount3()) .build()); } else { // 已存在:累加各金额字段 merged.setAmount1(merged.getAmount1() + data.getAmount1()); merged.setAmount2(merged.getAmount2() + data.getAmount2()); merged.setAmount3(merged.getAmount3() + data.getAmount3()); } } } // 返回聚合结果(顺序不保证;如需有序可转为 TreeMap 或最后排序) return new ArrayList<>(accumulator.values()); }
? 关键设计说明:时间效率:仅一次双重遍历,总时间复杂度为 O(N),N 为所有 Sheet 中 Data 总数;空间效率:HashMap 存储去重后的 ID 及其累计值,空间复杂度 O(U),U 为唯一 ID 数量;不可变性保障:不复用原始 Data 实例(尤其当原始列表被其他逻辑引用时),而是通过 Builder 或构造器创建新实例;扩展友好:若后续新增 amount4 字段,只需在 if/else 块中补充一行累加逻辑,无需重构主干。
? 使用示例
// 构建模拟数据 Map> sheets = new HashMap<>(); sheets.put("sheet1", Arrays.asList( new Data(7001, 20, 20, 10), new Data(8002, 30, 30, 10), new Data(7003, 30, 40, 10) )); sheets.put("sheet2", Arrays.asList( new Data(7001, 5, 0, 2), new Data(8004, 2, 2, 2), new Data(7003, 3, 4, 5) )); List finalSheet = mergeSheetsBySum(sheets); // 输出结果包含 id: 7001, 7003, 8002, 8004,对应字段已正确累加
⚠️ 注意事项与优化建议
- 线程安全:该方法为纯内存操作,无共享状态,天然线程安全;若需并发调用多个 mergeSheetsBySum(),无需额外同步。
- 空值防护:生产环境建议在方法入口添加 Objects.requireNonNull(sheetMap) 和空 list 判空(如 if (dataList != null))。
- ID 类型升级:若未来 ID 改为 Long 或 String,只需调整 Map 泛型及 .getId() 返回类型,逻辑不变。
-
性能进阶(超大数据量):当单 Sheet 数据达百万级,可考虑:
- 使用 ConcurrentHashMap + 并行流(注意 forEach 非线程安全,应改用 collect);
- 或预分配 HashMap 初始容量(估算唯一 ID 上限),减少 rehash 开销。
此方案兼顾简洁性、可读性与工程鲁棒性,是 Java 中多源 ID 对齐聚合的经典解法。










