
本文档介绍了如何使用 Java Stream 将从多个 CSV 文件读取的数据进行合并,特别是当第二个数据集的获取依赖于第一个数据集的结果时。我们将通过一个城市和国家数据的示例,展示如何根据城市信息中的国家代码,从国家数据集中获取对应的国家名称,并保持原始数据的顺序。
数据模型
首先,定义两个实体类 City 和 Country,分别对应城市和国家的数据结构。
import com.opencsv.bean.CsvBindByPosition;
public class City {
@CsvBindByPosition(position = 0)
private Integer id;
@CsvBindByPosition(position = 1)
private String name;
@CsvBindByPosition(position = 2)
private String countryCode;
private String countryName; // 用于存储合并后的国家名称
// Getters and setters
public Integer getId() {
return id;
}
public void setId(Integer id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public String getCountryCode() {
return countryCode;
}
public void setCountryCode(String countryCode) {
this.countryCode = countryCode;
}
public String getCountryName() {
return countryName;
}
public void setCountryName(String countryName) {
this.countryName = countryName;
}
@Override
public String toString() {
return "City{" +
"id=" + id +
", name='" + name + '\'' +
", countryCode='" + countryCode + '\'' +
", countryName='" + countryName + '\'' +
'}';
}
}import com.opencsv.bean.CsvBindByPosition;
public class Country {
@CsvBindByPosition(position = 0)
private Integer id;
@CsvBindByPosition(position = 1)
private String name;
@CsvBindByPosition(position = 2)
private String code;
// Getters and setters
public Integer getId() {
return id;
}
public void setId(Integer id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public String getCode() {
return code;
}
public void setCode(String code) {
this.code = code;
}
@Override
public String toString() {
return "Country{" +
"id=" + id +
", name='" + name + '\'' +
", code='" + code + '\'' +
'}';
}
}合并数据
以下代码展示了如何使用 Java Stream 将城市和国家数据合并,并将国家名称添加到对应的城市对象中。
import java.util.Arrays;
import java.util.List;
public class DataMerger {
public static void main(String[] args) {
// 模拟从 CSV 文件读取数据
List countries = Arrays.asList(
new Country(100, "Germany", "DE"),
new Country(105, "France", "FR"),
new Country(108, "Denmark", "DK")
);
List cities = Arrays.asList(
new City(1, "Berlin", "DE"),
new City(2, "Munich", "DE"),
new City(3, "Köln", "DE"),
new City(4, "Paris", "FR"),
new City(5, "Kopenhag", "DK")
);
// 使用 Stream 合并数据
cities.forEach(city -> city.setCountryName(countries.stream()
.filter(country -> country.getCode().equals(city.getCountryCode()))
.map(Country::getName)
.findAny()
.orElse(null)));
// 打印合并后的结果
cities.forEach(System.out::println);
}
} 代码解释:
立即学习“Java免费学习笔记(深入)”;
-
数据准备: 首先,模拟从 CSV 文件读取城市和国家数据。实际应用中,需要使用 CSV 解析库(如 opencsv)将 CSV 文件内容转换为 List
和 List 。 -
Stream 处理:
- 使用 cities.forEach() 遍历城市列表,保证处理顺序与城市列表一致。
- 对于每个城市,使用 countries.stream() 创建一个国家数据流。
- filter(country -> country.getCode().equals(city.getCountryCode())) 过滤国家数据流,只保留国家代码与城市国家代码匹配的国家。
- map(Country::getName) 将过滤后的国家数据流映射为国家名称流。
- findAny() 从国家名称流中找到任意一个国家名称。由于一个城市只对应一个国家,因此找到任意一个即可。
- orElse(null) 如果找不到匹配的国家,则返回 null。
- city.setCountryName(...) 将找到的国家名称设置到对应的城市对象中。
- 结果输出: 打印合并后的城市数据,包含国家名称。
输出结果:
City{id=1, name='Berlin', countryCode='DE', countryName='Germany'}
City{id=2, name='Munich', countryCode='DE', countryName='Germany'}
City{id=3, name='Köln', countryCode='DE', countryName='Germany'}
City{id=4, name='Paris', countryCode='FR', countryName='France'}
City{id=5, name='Kopenhag', countryCode='DK', countryName='Denmark'}注意事项
- 数据量: 如果城市和国家数据量非常大,上述方法可能会影响性能。可以考虑使用 HashMap 提前将国家代码和国家名称进行映射,以提高查找效率。
- 异常处理: 在实际应用中,需要考虑 CSV 文件读取异常、数据格式错误等情况,并进行适当的异常处理。
- 并发处理: 如果对性能要求较高,并且可以接受一定的顺序错乱,可以考虑使用并行流或 CompletableFuture 来加速数据合并过程。但需要仔细评估并发带来的复杂性,并确保线程安全。
总结
本文展示了如何使用 Java Stream 将从多个 CSV 文件读取的数据进行合并。通过 forEach 循环和 Stream 的 filter、map 等操作,可以方便地实现数据的关联和转换。在实际应用中,需要根据数据量、性能要求和并发情况选择合适的解决方案。










