0

0

计算 CSV 文件总字节数的高效流式实现

心靈之曲

心靈之曲

发布时间:2026-03-10 15:19:01

|

509人浏览过

|

来源于php中文网

原创

计算 CSV 文件总字节数的高效流式实现

本文介绍如何通过 Java Stream API 高效、准确地预估 List 结构生成的 CSV 文件总字节数,避免 I/O 开销,兼顾空值处理、逗号与换行符计数,并提供可直接复用的优化代码。

本文介绍如何通过 java stream api 高效、准确地预估 `list` 结构生成的 csv 文件总字节数,避免 i/o 开销,兼顾空值处理、逗号与换行符计数,并提供可直接复用的优化代码。

在批量导出 CSV 场景中(如分片上传、内存预分配或限流控制),常需在真正写入磁盘前精确估算最终文件的字节大小。原始方案使用 ByteArrayOutputStream 虽直观但引入了不必要的内存拷贝与对象创建;而原问题中的流式计算逻辑存在多处偏差:例如错误地将 header 行长度乘以行数来计逗号、未计入换行符、对 null 字符串的处理不一致等。

以下是经过语义校准与性能优化的核心实现:

public long getNumOfFiles(List<String[]> csvRows, String[] csvHeaderRow) {
    // 合并 header 和所有数据行,统一处理
    long totalSize = Stream.concat(
            Stream.<String[]>of(csvHeaderRow),
            csvRows.stream()
        )
        .mapToLong(row -> {
            // 1. 所有非 null 字段的 UTF-8 字节数之和
            long fieldBytes = Arrays.stream(row)
                .mapToLong(s -> s == null ? 0L : (long) s.getBytes(StandardCharsets.UTF_8).length)
                .sum();
            // 2. 行内逗号数 = 字段数 - 1(CSV 标准格式)
            long commaCount = Math.max(0, row.length - 1);
            // 3. 每行末尾需一个换行符(\n,Unix 风格;若需 \r\n 则改为 2)
            long newlineBytes = 1L;
            return fieldBytes + commaCount + newlineBytes;
        })
        .sum();

    // 注意:header 行后无额外换行,但最后一行数据后已有换行 → 总换行数 = 行总数(header + data rows)
    // 上述循环已为每行(含 header)添加了 1 个换行符,因此无需额外 +1

    // 计算分片数:向上取整(即 (total + MAX - 1) / MAX)
    return (totalSize + MAX_FILE_SIZE_BYTES - 1) / MAX_FILE_SIZE_BYTES;
}

关键优化点说明

奥硕企业网站管理系统1.9 Sql版
奥硕企业网站管理系统1.9 Sql版

临沂奥硕软件有限公司拥有国内一流的企业网站管理系统,奥硕企业网站管理系统真正会打字就会建站的管理系统,其强大的扩展性可以满足企业网站实现各种功能。奥硕企业网站管理系统具有一下特色功能1、双语双模(中英文采用单独模板设计,可制作中英文不同样式的网站)2、在线编辑JS动态菜单支持下拉效果,同时生成中文,英文,静态3个JS菜单3、在线制作并调用FLASH展示动画4、自动生成缩略图,可以自由设置宽高5、图

下载
  • 统一流处理:用 Stream.concat() 将 header 和数据行合并为单一流,消除重复逻辑;
  • 精准字节计算:显式指定 StandardCharsets.UTF_8,避免依赖平台默认编码导致结果不可靠;
  • 空值安全:s == null ? 0L : ... 直接跳过 null 字段,符合 CSV 空列(如 "a,,c")语义;
  • 结构合规:每行包含 字段字节数 + (字段数−1) 个逗号 + 1 个换行符,严格匹配真实 CSV 序列化行为;
  • 整数溢出防护:全程使用 long 运算,防止大数据集下 int 溢出;
  • 分片计算健壮化:采用 (x + max - 1) / max 替代 x / max + 1,避免 x == 0 时误判(如空数据集)。

⚠️ 注意事项

  • 若目标环境要求 Windows 换行符(\r\n),请将 newlineBytes = 2L;
  • 若 CSV 含双引号转义(如字段含逗号、换行符),本算法不适用——此时必须调用真实 CSV 库(如 OpenCSV、Apache Commons CSV)序列化后统计,因转义逻辑无法静态推导;
  • MAX_FILE_SIZE_BYTES 建议定义为 static final long 常量,提升可读性与 JIT 优化机会。

该方案时间复杂度为 O(N×M)(N 为总行数,M 为平均字段数),空间复杂度 O(1),无中间集合创建,是兼顾准确性、性能与可维护性的生产就绪解法。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

990

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

253

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1564

2023.10.24

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

739

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1564

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 6.9万人学习

Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Pandas 教程
Pandas 教程

共15课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号