0

0

Java处理文本文件中基于特定字段重复数据的策略与实践

聖光之護

聖光之護

发布时间:2025-12-03 10:26:07

|

365人浏览过

|

来源于php中文网

原创

Java处理文本文件中基于特定字段重复数据的策略与实践

本文深入探讨了在java中高效处理文本文件内重复数据的方法,特别是当重复的判断依据是每行记录的第一个字段时。文章将介绍如何利用java stream api中的`collectors.tomap`来灵活地识别和移除重复行,并提供了两种实现方案:直接对字符串进行操作,以及通过构建领域对象来提升代码的可读性和可维护性,从而实现精确的数据去重和整理。

在数据处理场景中,我们经常需要从文本文件中读取数据并去除其中的重复记录。一个常见的需求是,当一行记录的某个特定字段(例如,第一个逗号分隔的值)与另一行记录的该字段相同时,我们认为这两行是重复的,并希望删除其中一行。Java的Stream.distinct()方法虽然可以去除流中的重复元素,但它依赖于对象的equals()和hashCode()方法,对于基于部分字段的自定义去重逻辑,distinct()并不适用。此时,我们需要更灵活的策略来处理这类问题。

方案一:利用 Collectors.toMap 进行字符串去重

当处理以逗号分隔的字符串数据时,我们可以利用Collectors.toMap来构建一个映射,其中键是用于判断重复的字段,值是原始的行字符串。Collectors.toMap的强大之处在于其mergeFunction参数,它允许我们定义当遇到重复键时如何解决冲突。

考虑以下文本数据示例:

123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890
123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891
123456,Newyork street,near 100th avenue,King master company,Texas,US,10005

在这个例子中,第一行和第三行的第一个字段(123456)是相同的。我们的目标是删除第三行,保留第一行。

立即学习Java免费学习笔记(深入)”;

以下是使用Collectors.toMap实现此逻辑的Java代码:

import java.util.List;
import java.util.Map;
import java.util.function.Function;
import java.util.stream.Collectors;

public class DuplicateRowRemover {

    public static void main(String[] args) {
        List<String> sourceList = List.of(
            "123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
            "123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
            "123456,Newyork street,near 100th avenue,King master company,Texas,US,10005"
        );

        // 使用 Collectors.toMap 进行去重
        List<String> uniqueList = sourceList.stream()
            .collect(Collectors.toMap(
                str -> str.substring(0, str.indexOf(',')), // keyMapper: 提取第一个字段作为键
                Function.identity(),                       // valueMapper: 原始字符串作为值
                (existing, replacement) -> existing        // mergeFunction: 遇到重复键时,保留现有值
            ))
            .values().stream().toList(); // 从Map的值中获取去重后的列表

        System.out.println("去重后的字符串列表:");
        uniqueList.forEach(System.out::println);
        // 预期输出:
        // 123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890
        // 123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891
    }
}

代码解析:

Roboflow
Roboflow

一个为计算机视觉和机器学习提供工具和服务的平台

下载
  • keyMapper (str -> str.substring(0, str.indexOf(','))): 这个函数负责从每行字符串中提取出作为唯一标识的键。在这里,我们查找第一个逗号的位置,并截取从开头到该位置的子字符串。
  • valueMapper (Function.identity()): 这个函数定义了映射到键上的值。Function.identity()表示直接使用原始的字符串作为值。
  • mergeFunction ((existing, replacement) -> existing): 这是解决键冲突的关键。当Collectors.toMap尝试插入一个已经存在的键时,mergeFunction会被调用。它接收两个参数:existing(Map中已有的值)和replacement(尝试插入的新值)。这里我们选择existing,意味着当遇到重复的第一个字段时,我们保留Map中已有的那一行记录,而丢弃新遇到的重复行。如果想保留最新遇到的行,可以返回replacement。

方案二:采用领域对象模型提升可维护性

直接操作字符串虽然简单,但当数据结构复杂或需要进行更多业务逻辑处理时,这种方式会变得难以维护。更专业的做法是定义一个领域对象(Domain Object)来封装每行数据的各个字段。这不仅提高了代码的可读性,也为后续的数据操作提供了类型安全和便利。

首先,定义一个Company类来表示每行数据:

import lombok.Builder;
import lombok.Getter;

// 假设已引入Lombok,用于简化Getter和Builder的生成
@Builder
@Getter
public class Company {
    private long id;
    private String street;
    private String locationDescription;
    private String companyName;
    private String state;
    private String country;
    private String zipCode;

    /**
     * 将逗号分隔的字符串解析为Company对象
     * @param line 待解析的字符串行
     * @return 解析后的Company对象
     */
    public static Company parse(String line) {
        String[] arr = line.split(",");
        if (arr.length < 7) { // 简单的数据完整性检查
            throw new IllegalArgumentException("Invalid line format: " + line);
        }
        return Company.builder()
            .id(Long.parseLong(arr[0]))
            .street(arr[1]) // 补充street字段
            .locationDescription(arr[2])
            .companyName(arr[3])
            .state(arr[4])
            .country(arr[5])
            .zipCode(arr[6])
            .build();
    }

    @Override
    public String toString() {
        return id + "," + street + "," + locationDescription + "," + companyName + "," + state + "," + country + "," + zipCode;
    }
}

注意: 上述Company类使用了Lombok注解@Builder和@Getter来自动生成构建器和Getter方法,以减少样板代码。如果项目中没有Lombok,需要手动实现这些方法。parse方法负责将一行字符串解析成Company对象,并包含了基本的格式检查。

接下来,使用Company对象进行去重:

import java.util.List;
import java.util.function.Function;
import java.util.stream.Collectors;

public class CompanyDuplicateRemover {

    public static void main(String[] args) {
        List<String> sourceList = List.of(
            "123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
            "123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
            "123456,Newyork street,near 100th avenue,King master company,Texas,US,10005"
        );

        // 将字符串流转换为Company对象流,然后进行去重
        List<Company> uniqueCompanies = sourceList.stream()
            .map(Company::parse) // 将每行字符串解析为Company对象
            .collect(Collectors.toMap(
                Company::getId,       // keyMapper: 使用Company对象的id作为键
                Function.identity(),  // valueMapper: Company对象本身作为值
                (existing, replacement) -> existing // mergeFunction: 遇到重复id时,保留现有Company对象
            ))
            .values().stream().toList(); // 从Map的值中获取去重后的Company对象列表

        System.out.println("去重后的Company对象列表:");
        uniqueCompanies.forEach(System.out::println);
        // 预期输出:
        // 123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890
        // 123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891
    }
}

代码解析:

  • map(Company::parse): 这一步将原始的String流转换成了Company对象流。
  • keyMapper (Company::getId): 现在,我们可以直接使用Company对象的id属性作为键,这比字符串截取更加直观和类型安全。
  • valueMapper (Function.identity()): 值仍然是Company对象本身。
  • mergeFunction ((existing, replacement) -> existing): 逻辑与字符串去重相同,保留第一个遇到的Company对象。

注意事项与总结

  1. 错误处理: 在实际应用中,从文本文件解析数据时,需要考虑文件不存在、行格式不正确、数据类型转换失败(如Long.parseLong可能抛出NumberFormatException)等情况。在Company.parse方法中加入更健壮的错误处理机制(如try-catch块或返回Optional)是必要的。
  2. 内存消耗: Collectors.toMap方法会将所有去重后的数据存储在内存中的Map里。对于非常大的文件,这可能会导致内存溢出。在这种情况下,可能需要考虑逐行读取文件,并利用外部存储(如数据库或临时文件)来管理重复项,或者采用更复杂的流式处理技术。
  3. 合并策略: mergeFunction的选择至关重要。(left, right) -> left 表示保留第一次遇到的记录;(left, right) -> right 表示保留最后一次遇到的记录。根据业务需求,您可能需要更复杂的合并逻辑,例如合并两个记录的某些字段,或者抛出异常以指示数据冲突。
  4. 性能: 对于大规模数据,Stream API结合HashMap(Collectors.toMap底层使用)通常能提供良好的性能。然而,如果键的哈希冲突非常频繁,性能可能会受到影响。

通过本文介绍的两种方法,无论是直接对字符串进行操作,还是采用更具结构化的领域对象,都能够有效地解决基于特定字段的文本文件重复行删除问题。选择哪种方案取决于项目的复杂性、数据结构的稳定性以及对代码可维护性的要求。在多数企业级应用中,采用领域对象模型是更推荐的做法。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

336

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

224

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1010

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1565

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11.1万人学习

Java 教程
Java 教程

共578课时 | 80.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号