在Java中如何实现文本文件统计工具_Java文本处理项目说明

P粉602998670

发布时间：2026-01-22 14:51:38

641人浏览过

来源于php中文网

原创

Files.lines()适合流式统计文本行数、字符数、单词数：行数用count()；字符数累加每行length()（不含换行符）；单词数用split("s+")并filter非空字符串。需处理编码异常、大文件OOM、中英文混合分词及wc兼容输出格式。

在java中如何实现文本文件统计工具_java文本处理项目说明

用 `Files.lines()` 读取并统计行数、字符数、单词数

Java 8+ 推荐用 Files.lines() 流式处理，避免手动管理 BufferedReader。它默认按系统换行符切分，返回 Stream<string></string>，适合逐行统计。

行数：直接用 count()，但注意该操作会消耗流，后续不能再复用
字符数：对每行调用 String.length() 累加（不含换行符）；若需含换行符，得用 Files.readAllBytes()
单词数：每行用 split("\s+") 切分，过滤空字符串后计数；注意 \s+ 能处理多个空格、制表符等

Path path = Paths.get("input.txt");
try (Stream<String> lines = Files.lines(path, StandardCharsets.UTF_8)) {
    long lineCount = lines.count(); // 注意：流已关闭，不能继续用
}

处理编码异常和大文件内存溢出

中文文本常见 MalformedInputException，本质是文件编码与指定编码不匹配。不要硬写 UTF_8，应先探测或允许用户传入编码参数。

小文件可用 Files.readAllLines(path, charset)，但超过几十 MB 易 OOM
大文件必须用流式处理（Files.lines() 或 BufferedReader），且每次只持有一行
若不确定编码，可尝试 CharsetDetector（Apache Tika）或简单 fallback：先试 UTF-8，失败再试 GBK

区分“单词”的边界：别依赖 `String.split(" ")`

split(" ") 只按单个空格切，遇到制表符、连续空格、首尾空格就会漏词或产生空串。实际统计应满足：英文单词由字母数字组成，中文字符每个字算一个“词”（视需求而定）。

纯英文场景：用 line.split("\p{IsAlphabetic}+|\p{IsDigit}+") 不现实，更实用的是正则匹配单词：Pattern.compile("\b[a-zA-Z]+\b")
中英文混合：用 "[\p{IsHan}\p{IsLetter}\p{IsDigit}]+" 匹配汉字、英文字母、数字组成的单元
避免 split("\s+") 后不 filter(s -> !s.isEmpty())，否则空行或纯空白行会导致单词数偏高

输出格式要兼容 Unix `wc` 工具习惯

用户常拿你的工具和系统 wc 对比，字段顺序、对齐、列宽都影响信任感。标准 wc 输出是：行数单词数字符数文件名，且数字右对齐、固定宽度（通常 7 位）。

Cutout.Pro

AI驱动的视觉设计平台

下载

立即学习“Java免费学习笔记（深入）”；

字符数包含所有字节（不是字符数），Java 中对应 Files.readAllBytes().length；若只要 Unicode 字符数，才用 String.length()
文件名为空时（如从 stdin 读），输出不带文件名；多个文件要分别统计，并在末尾加总计行
别用 System.out.printf("%7d %7d %7d %s", ...) 简单对齐——Windows 控制台可能乱码，建议用 String.format 拼接后统一输出

真正难的不是算数，而是让不同编码、含控制字符、超长行、稀疏空格的文件都给出稳定结果。尤其当用户把日志、CSV、甚至二进制伪装成文本扔进来时，健壮性比功能更重要。

Java 文件读取中正确过滤注释行与空行的完整实践指南

Java 中的原子性操作不保证可见性：volatile 不可替代

Java 8/9 中生成两个日期之间所有日期列表的完整实现

Java 实现双人回合制骨牌游戏：玩家与CPU交替对战教程

如何在Java中监控线程池的运行指标_继承ThreadPoolExecutor并收集ActiveCount发送到监控系统

相关标签:

java git windows apache 编码字节工具 csv unix win stream red String count format Filter printf 字符串 Length windows apache unix

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Java中接口支持多继承吗_Java接口继承规则说明下一篇：在Java中受检异常和运行时异常如何区分_Java异常分类解析

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1051

2023.08.02

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

888

2023.07.31

python中的format是什么意思

python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

464

2024.06.27

printf用法大全

php中文网为大家提供printf用法大全，以及其他printf函数的相关文章、相关下载资源以及各种相关课程，供大家免费下载体验。

2023.06.20

fprintf和printf的区别

fprintf和printf的区别在于输出的目标不同，printf输出到标准输出流，而fprintf输出到指定的文件流。根据需要选择合适的函数来进行输出操作。更多关于fprintf和printf的相关文章详情请看本专题下面的文章。php中文网欢迎大家前来学习。

309

2023.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板

在Java中如何实现文本文件统计工具_Java文本处理项目说明

用 Files.lines() 读取并统计行数、字符数、单词数

处理编码异常和大文件内存溢出

区分“单词”的边界：别依赖 String.split(" ")

输出格式要兼容 Unix wc 工具习惯

用 `Files.lines()` 读取并统计行数、字符数、单词数

区分“单词”的边界：别依赖 `String.split(" ")`

输出格式要兼容 Unix `wc` 工具习惯