OpenCSV读中文CSV乱码因默认ISO-8859-1解码,需用InputStreamReader指定UTF-8;Commons CSV通过withFirstRecordAsHeader()跳过表头并支持字段名取值;二者写CSV时对换行和引号处理不同,Excel兼容需用\r\n;超10万行简单CSV可手写BufferedReader/Writer提升性能。

OpenCSV读取中文CSV乱码怎么办
根本原因是OpenCSV默认用ISO-8859-1解码,而中文CSV通常是UTF-8编码。不指定字符集,CSVReader会直接把UTF-8字节当Latin-1解析,导致“你好”变成“浣犲ソ”。
- 必须用
InputStreamReader包装文件流,并显式传入StandardCharsets.UTF_8 - 别用
new CSVReader(new FileReader("data.csv"))——FileReader不接受编码参数,天生不安全 - 如果CSV带BOM,OpenCSV不会自动跳过,得自己检测并截掉前3个字节(
0xEF 0xBB 0xBF)
Reader reader = new InputStreamReader(
new FileInputStream("data.csv"), StandardCharsets.UTF_8);
CSVReader csvReader = new CSVReader(reader);
Apache Commons CSV怎么跳过表头并校验字段数
它不像OpenCSV那样提供开箱即用的“skip header”开关,但用CSVFormat.DEFAULT.withFirstRecordAsHeader()后,getHeaderMap()能拿到列名,后续每行CSVRecord可通过get("column_name")安全取值,天然规避下标越界。
- 字段数不一致时,默认抛
IOException,可改用withIgnoreEmptyLines(true)和withIgnoreSurroundingSpaces(true)预处理 - 若需容忍缺失字段,得手动检查
record.size()是否等于预期长度,不能依赖record.get(5)——越界直接IllegalArgumentException -
CSVFormat.EXCEL对制表符、引号转义的支持比DEFAULT更宽松,但性能略低,导出Excel兼容CSV时优先选它
写CSV时OpenCSV和Commons CSV对换行符和引号的处理差异
两者都遵循RFC 4180,但默认行为不同:OpenCSV用"包裹含逗号/换行的字段,且内部"转义为"";Commons CSV默认不自动包裹,除非字段含分隔符或换行符。
- OpenCSV写入含换行的单元格,必须确保
CSVWriter构造时传入new String[]{"\n", "\r\n"}作为lineEnd参数,否则Windows下可能显示为^M - Commons CSV中,
CSVPrinter.printRecord()遇到\n会自动加引号并替换为\r\n(受withRecordSeparator()影响),但原始字符串里的\r不会被处理 - 若CSV要被Excel打开,务必用
\r\n作换行,且避免字段里出现\r单独存在(Excel会误判为行结束)
什么时候该放弃CSV库,直接用BufferedReader/Writer
当CSV结构极度简单(无引号、无换行、无空字段)、单次读写量超10万行、且你明确知道编码和分隔符时,手写解析反而更快更可控——两个主流库的封装层在高吞吐场景下会带来明显GC压力和对象分配开销。
立即学习“Java免费学习笔记(深入)”;
- 用
Files.lines(path, UTF_8)逐行流式读取,配合String.split(",", -1)(-1保留末尾空字段) - 写入时用
BufferedWriter,字段拼接前手动判断是否含,或",再决定是否加引号和转义 - 注意
split()无法处理被引号包裹的逗号(如"a,b",c),这种场景必须回归CSV库
真正麻烦的从来不是读写本身,而是CSV没有强制schema——同一列今天存数字明天存空字符串,运行时才暴露类型错,这类问题库帮不了你,得靠业务层加校验。










