0

0

OpenCSV 中自定义 CSVReader 分隔符的完整教程

花韻仙語

花韻仙語

发布时间:2026-02-28 22:35:01

|

903人浏览过

|

来源于php中文网

原创

OpenCSV 中自定义 CSVReader 分隔符的完整教程

本文详解如何在 opencsv 中将默认逗号分隔符替换为制表符(tab)或其他任意字符,以正确解析 tsv 文件,并提供可直接运行的代码示例与关键注意事项。

本文详解如何在 opencsv 中将默认逗号分隔符替换为制表符(tab)或其他任意字符,以正确解析 tsv 文件,并提供可直接运行的代码示例与关键注意事项。

OpenCSV 默认以英文逗号(,)作为字段分隔符,但实际开发中常需处理制表符分隔(TSV)、分号分隔(如部分欧洲 locale 的 CSV)甚至竖线(|)等格式。OpenCSV 3.0+ 引入了构建器模式(Builder Pattern),推荐使用 CSVReaderBuilder 和 CSVParserBuilder 组合方式灵活配置解析器行为,而非直接调用已过时的构造函数。

✅ 正确配置 Tab 分隔符(TSV 解析)

以下代码展示了如何使用 CSVParserBuilder 显式指定 \t 为分隔符,并通过 CSVReaderBuilder 构建具备该配置的 CSVReader 实例:

import com.opencsv.CSVParserBuilder;
import com.opencsv.CSVReader;
import com.opencsv.CSVReaderBuilder;
import java.io.InputStreamReader;
import java.util.Objects;

public class TestMain {
    public static void parseTsv(String filePath) throws Exception {
        try (CSVReader reader = new CSVReaderBuilder(
                new InputStreamReader(Objects.requireNonNull(TestMain.class.getResourceAsStream(filePath))))
                .withCSVParser(new CSVParserBuilder()
                        .withSeparator('\t')  // 关键:设置分隔符为制表符
                        .build())
                .build()) {
            String[] line;
            while ((line = reader.readNext()) != null) {
                // 安全访问:建议先校验 line 长度,避免 ArrayIndexOutOfBoundsException
                if (line.length >= 2) {
                    System.out.println(line[0] + " " + line[1]);
                }
            }
        }
    }

    public static void main(String[] args) {
        try {
            parseTsv("/data/sample.tsv"); // 注意路径需为类路径下的资源(如 src/main/resources/data/sample.tsv)
        } catch (Exception e) {
            throw new RuntimeException("TSV parsing failed", e);
        }
    }
}

⚠️ 重要注意事项

  • 依赖版本要求:上述写法适用于 OpenCSV ≥ 4.0(推荐 5.7.1 或更高稳定版)。若使用旧版(如 3.x),需引入 com.opencsv:opencsv 并确保 Maven/Gradle 依赖声明正确:

    <!-- Maven -->
    <dependency>
        <groupId>com.opencsv</groupId>
        <artifactId>opencsv</artifactId>
        <version>5.7.1</version>
    </dependency>
  • 字符编码兼容性:TSV 文件若含中文或特殊符号,建议显式指定编码(如 UTF-8),避免乱码:

    new InputStreamReader(
        Objects.requireNonNull(TestMain.class.getResourceAsStream(filePath)), 
        StandardCharsets.UTF_8)
  • 空行与引号处理:OpenCSV 默认跳过空行;若 TSV 字段含制表符或换行符,应启用引号封装(withQuoteChar('"')),并确保源文件符合 RFC 4180 规范。

    Lemonaid
    Lemonaid

    AI音乐生成工具,在音乐领域掀起人工智能革命

    下载
  • 性能提示:对于超大文件,可考虑结合 CSVReader#readAll() 批量读取,或改用流式处理(如 Stream 封装)提升可维护性。

✅ 扩展:支持任意分隔符

只需修改 .withSeparator() 参数即可适配其他格式,例如:

  • 分号分隔:.withSeparator(';')
  • 竖线分隔:.withSeparator('|')
  • 自定义字符(如 ~):.withSeparator('~')

只要分隔符不与业务数据中的字符冲突,OpenCSV 均能可靠解析。

掌握这一配置方式,你不仅能轻松应对 TSV 场景,还可无缝扩展至各类结构化文本解析任务——灵活性与健壮性兼备。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Java Maven专题
Java Maven专题

本专题聚焦 Java 主流构建工具 Maven 的学习与应用,系统讲解项目结构、依赖管理、插件使用、生命周期与多模块项目配置。通过企业管理系统、Web 应用与微服务项目实战,帮助学员全面掌握 Maven 在 Java 项目构建与团队协作中的核心技能。

0

2025.09.15

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

890

2023.08.02

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

6

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

5

2026.02.28

Golang 性能分析与运行时机制:构建高性能程序
Golang 性能分析与运行时机制:构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。

8

2026.02.28

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

14

2026.02.27

Golang 高级特性与最佳实践:提升代码艺术
Golang 高级特性与最佳实践:提升代码艺术

本专题深入剖析 Golang 的高级特性与工程级最佳实践,涵盖并发模型、内存管理、接口设计与错误处理策略。通过真实场景与代码对比,引导从“可运行”走向“高质量”,帮助构建高性能、可扩展、易维护的优雅 Go 代码体系。

17

2026.02.27

Golang 测试与调试专题:确保代码可靠性
Golang 测试与调试专题:确保代码可靠性

本专题聚焦 Golang 的测试与调试体系,系统讲解单元测试、表驱动测试、基准测试与覆盖率分析方法,并深入剖析调试工具与常见问题定位思路。通过实践示例,引导建立可验证、可回归的工程习惯,从而持续提升代码可靠性与可维护性。

2

2026.02.27

漫蛙app官网链接入口
漫蛙app官网链接入口

漫蛙App官网提供多条稳定入口,包括 https://manwa.me、https

130

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号