
本文详细介绍了如何利用java stream api高效处理复杂数据。通过一个具体案例,演示了如何结合多条件过滤、自定义分组键(按日期月份和事件类型)、以及使用`collectors.counting()`进行聚合计数,最终将处理结果转换为结构化的dto列表,帮助开发者掌握java 8+流式编程的高级技巧。
在现代Java应用开发中,数据处理是核心任务之一。Java 8引入的Stream API极大地简化了集合数据的操作,使其更具可读性和表达力。本文将深入探讨如何利用Stream API实现复杂的数据转换需求,包括多条件过滤、按日期字段(月份)分组,并对分组结果进行聚合计数。我们将通过一个具体的场景来演示这些高级特性。
场景描述与数据模型
假设我们有一个包含人员事件信息的列表。每个Person对象记录了一个事件(如JOIN入职或EXIT离职)及其发生的日期。我们的目标是统计每个月不同事件类型(JOIN或EXIT)的总人数。
首先,我们定义相关的数据模型:
-
Person 类:表示一个人员事件。
立即学习“Java免费学习笔记(深入)”;
import java.time.LocalDate; public class Person { private String id; private String name; private String surname; private State event; // JOIN, EXIT private Object value; // 示例中未用到,可忽略 private LocalDate eventDate; public Person(String id, String name, String surname, State event, LocalDate eventDate) { this.id = id; this.name = name; this.surname = surname; this.event = event; this.eventDate = eventDate; } public String getId() { return id; } public State getEvent() { return event; } public LocalDate getEventDate() { return eventDate; } // 假设 State 是一个枚举类型 public enum State { JOIN, EXIT, OTHER } @Override public String toString() { return "Person{" + "id='" + id + '\'' + ", event=" + event + ", eventDate=" + eventDate + '}'; } } -
DTO 类:表示最终的统计结果。
public class DTO { private int month; private Person.State info; private int totalEmployees; public DTO(int month, Person.State info, int totalEmployees) { this.month = month; this.info = info; this.totalEmployees = totalEmployees; } public int getMonth() { return month; } public Person.State getInfo() { return info; } public int getTotalEmployees() { return totalEmployees; } @Override public String toString() { return "DTO{" + "Month=" + month + ", Info=" + info + ", Total Number=" + totalEmployees + '}'; } }
核心挑战:自定义分组键
为了实现按月份和事件类型同时分组,我们需要一个复合键。Java 16及更高版本推荐使用record类型来简洁地定义这样的数据载体;对于早期版本,可以使用一个普通的class。
// Java 16+ 的 record
public record MonthState(int month, Person.State info) {}
// Java 8-15 的 class 等效实现
/*
public class MonthState {
private final int month;
private final Person.State info;
public MonthState(int month, Person.State info) {
this.month = month;
this.info = info;
}
public int getMonth() { return month; }
public Person.State getInfo() { return info; }
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
MonthState that = (MonthState) o;
return month == that.month && info == that.info;
}
@Override
public int hashCode() {
return Objects.hash(month, info);
}
}
*/注意:如果使用class,必须正确实现equals()和hashCode()方法,以确保Map能够正确地将具有相同月份和事件状态的对象视为相同的键。record类型会自动生成这些方法。
Stream API 解决方案详解
我们将从一个Map
import java.util.*;
import java.util.stream.Collectors;
import java.time.LocalDate;
public class StreamGroupingExample {
public static void main(String[] args) {
// 示例数据初始化
Map> personListById = new HashMap<>();
personListById.put("per1", Arrays.asList(
new Person("per1", "John", "Doe", Person.State.JOIN, LocalDate.of(2022, 1, 10))
));
personListById.put("per2", Arrays.asList(
new Person("per2", "Jane", "Smith", Person.State.JOIN, LocalDate.of(2022, 1, 10))
));
personListById.put("per3", Arrays.asList(
new Person("per3", "Bob", "Johnson", Person.State.EXIT, LocalDate.of(2022, 1, 10)),
new Person("per3", "Bob", "Johnson", Person.State.EXIT, LocalDate.of(2022, 2, 10))
));
personListById.put("per4", Arrays.asList(
new Person("per4", "Alice", "Williams", Person.State.JOIN, LocalDate.of(2022, 3, 10))
));
personListById.put("per5", Arrays.asList( // 包含其他事件类型的示例
new Person("per5", "Charlie", "Brown", Person.State.OTHER, LocalDate.of(2022, 1, 15))
));
// Stream 管道处理
List result = personListById.values().stream()
// 1. 扁平化处理:将Map中所有List合并成一个Person流
.flatMap(List::stream)
// 2. 多条件过滤:只保留JOIN或EXIT事件类型的Person对象
.filter(per -> per.getEvent() == Person.State.EXIT || per.getEvent() == Person.State.JOIN)
// 3. 核心分组与计数:
// - 使用MonthState作为分组键,结合月份和事件类型
// - 使用Collectors.counting()作为下游收集器,计算每个分组中的元素数量
.collect(Collectors.groupingBy(
p -> new MonthState(p.getEventDate().getMonthValue(), p.getEvent()),
Collectors.counting() // 统计每个分组的元素数量
))
// 4. 将Map的entrySet转换为Stream>
.entrySet().stream()
// 5. 映射为DTO对象:将Map.Entry转换为我们期望的DTO格式
.map(entry -> new DTO(entry.getKey().month(), entry.getKey().info(), entry.getValue().intValue()))
// 6. 排序:按月份升序排列
.sorted(Comparator.comparing(DTO::getMonth))
// 7. 收集结果:将Stream收集为List
.toList(); // Java 16+,等同于 .collect(Collectors.toList())
// 打印结果
result.forEach(System.out::println);
/* 预期输出:
DTO{Month=1, Info=JOIN, Total Number=2}
DTO{Month=1, Info=EXIT, Total Number=1}
DTO{Month=2, Info=EXIT, Total Number=1}
DTO{Month=3, Info=JOIN, Total Number=1}
*/
}
} Stream 管道分解:
-
personListById.values().stream():
- 首先,我们从Map中获取所有List
的集合,并将其转换为一个Stream - >。
- 首先,我们从Map中获取所有List
-
.flatMap(List::stream):
- flatMap操作用于将Stream
- >扁平化为一个Stream
。这意味着所有嵌套在列表中的Person对象都被提取出来,形成一个单一的流,以便后续处理。
- flatMap操作用于将Stream
-
.filter(per -> per.getEvent() == Person.State.EXIT || per.getEvent() == Person.State.JOIN):
- 这一步执行多条件过滤。我们只关心事件类型为JOIN或EXIT的Person对象,排除了其他不相关的事件。
-
.collect(Collectors.groupingBy(p -> new MonthState(p.getEventDate().getMonthValue(), p.getEvent()), Collectors.counting())):
- 这是整个管道的核心。Collectors.groupingBy()是一个强大的收集器,它将流中的元素根据提供的分类函数进行分组。
- 分类函数 (p -> new MonthState(...)): 为每个Person对象创建一个MonthState实例作为分组键。这个键包含了事件发生的月份 (p.getEventDate().getMonthValue()) 和事件类型 (p.getEvent())。
- 下游收集器 (Collectors.counting()): 对于每个分组,Collectors.counting()会计算该分组中元素的数量,其结果类型为Long。
- 这一步结束后,我们得到一个Map
,其中键是月份和事件类型的组合,值是对应的计数。
- 这是整个管道的核心。Collectors.groupingBy()是一个强大的收集器,它将流中的元素根据提供的分类函数进行分组。
-
.entrySet().stream():
- 为了将Map转换成我们最终的DTO列表,我们需要遍历Map的键值对。entrySet().stream()将Map的条目集转换为一个Stream
>。
- 为了将Map转换成我们最终的DTO列表,我们需要遍历Map的键值对。entrySet().stream()将Map的条目集转换为一个Stream
-
.map(entry -> new DTO(entry.getKey().month(), entry.getKey().info(), entry.getValue().intValue())):
- map操作将每个Map.Entry对象转换为一个DTO对象。
- entry.getKey().month() 和 entry.getKey().info() 用于获取MonthState中的月份和事件类型。
- entry.getValue().intValue() 将计数(Long类型)转换为int类型以适应DTO。
- map操作将每个Map.Entry对象转换为一个DTO对象。
-
.sorted(Comparator.comparing(DTO::getMonth)):
- 对最终的DTO流进行排序,按照月份的升序排列,使输出结果更具可读性。
-
.toList():
- 将处理并排序后的DTO流收集到一个List
中,作为最终结果。
- 将处理并排序后的DTO流收集到一个List
关键点与注意事项
- 自定义分组键的重要性:当需要根据多个属性进行分组时,创建一个包含这些属性的自定义对象(如MonthState)作为分组键是最佳实践。对于Java 16+,record提供了极简的实现方式。
- flatMap的使用场景:当处理包含嵌套集合的集合时,flatMap是不可或缺的,它能将多层结构扁平化为单一流,方便后续操作。
- Collectors.groupingBy的灵活性:groupingBy可以接受一个下游收集器,这使得它能够执行各种聚合操作,如counting()、summingInt()、averagingDouble()等。
- 类型转换:在将Long类型的计数转换为int时,需要注意潜在的溢出问题,尽管在大多数计数场景中不太可能发生。
- 日期处理:LocalDate提供了方便的方法来获取日期的各个部分,如getMonthValue()获取月份。
总结
通过本文的详细讲解和示例,我们展示了如何利用Java Stream API的强大功能,结合多条件过滤、自定义分组键以及Collectors.groupingBy和counting()等高级特性,高效地处理复杂的数据聚合需求。掌握这些技巧将使您在日常开发中能够编写出更简洁、更具表达力且性能优越的数据处理代码。










