0

0

Java如何编写一个基础的代码行数统计工具_递归目录与正则过滤

P粉602998670

P粉602998670

发布时间:2026-03-12 03:55:08

|

700人浏览过

|

来源于php中文网

原创

files.walk() 是 java 8+ 递归遍历目录最稳方案,支持深度优先、自动跳过权限不足路径,返回 stream 便于过滤统计;需注意关闭流、过滤非普通文件、限制数量防 oom、捕获异常并判断真实可达性。

java如何编写一个基础的代码行数统计工具_递归目录与正则过滤

Files.walk() 递归遍历目录最稳

Java 8+ 的 Files.walk() 是处理目录递归的首选,它天然支持深度优先、自动跳过权限不足路径,且返回的是 Stream<path></path>,和后续过滤统计能自然衔接。别手写 File.listFiles() 递归——容易漏掉符号链接、抛 NullPointerException 或陷入无限循环(比如软链成环)。

实操建议:

Avatar AI
Avatar AI

AI成像模型,可以从你的照片中生成逼真的4K头像

下载
  • .onClose(() -> System.out.println("遍历完成")) 方便调试是否真正结束(流不消费完会不触发关闭)
  • Files.isRegularFile(path) 过滤掉目录、设备文件等非普通文件
  • 对大目录加 .limit(10000) 预防 OOM(尤其 Docker 容器里内存有限)
  • 捕获 IOException 并用 Files.exists(path, LinkOption.NOFOLLOW_LINKS) 判断是否真不可达,避免因权限问题中断整个流

Pattern.compile() 做后缀和内容双过滤

只按扩展名过滤(比如 .java)不够——项目里常混着 build.gradlepom.xml、甚至 README.md 里夹带代码块。得用正则同时筛路径和内容:前者控范围,后者保质量。

常见错误现象:path.toString().endsWith(".java") 会漏掉 /src/main/java/com/example/Util.java(Windows 路径分隔符是 ),或误吞 MyClass.java.bak

立即学习Java免费学习笔记(深入)”;

实操建议:

  • 路径过滤用 Pattern.compile(".*\.java$").matcher(path.toString()).find(),锚定结尾,兼容各种分隔符
  • 内容过滤建议读取前 2KB 就够(Files.lines(path).limit(100).filter(...)),避免大文件卡住;跳过空行、纯注释行用 line.trim().isEmpty() || line.trim().startsWith("//") || line.trim().startsWith("/*")
  • 注意 Files.lines() 默认 UTF-8,若项目含 GBK 编码的遗留文件,必须显式传 StandardCharsets.GBK,否则中文行会报 MalformedInputException

Files.lines() 统计时小心编码与空行逻辑

直接 Files.lines(path).count() 看似省事,但默认把空行、纯注释、花括号独占行全算进去,和 IDE 里“有效代码行”概念差很远。更麻烦的是,没指定编码时遇到非 UTF-8 文件直接炸。

使用场景:CI 流水线里跑行数报告,要求结果稳定可比;或者审计第三方 SDK 源码规模。

实操建议:

  • Files.lines(path, StandardCharsets.UTF_8) 显式声明编码,宁可失败也不静默乱码
  • 有效行判断别只靠 !line.trim().isEmpty()——要排除 {} 单独成行的情况,加 !line.trim().matches("[{}\s]*")
  • 统计完立刻 .close()(或用 try-with-resources),否则流不关会导致文件句柄泄漏,在 Linux 上跑几百个文件就可能触发 Too many open files

性能瓶颈通常卡在 I/O,不是正则

很多人一上来优化正则,其实磁盘读比字符串匹配慢两个数量级。一个 500 行的 .java 文件,解析耗时约 0.2ms,而从 SSD 读它要 0.8ms,HDD 更是 3~5ms。正则再复杂,也压不过系统调用开销。

参数差异:用 BufferedReader 手动读比 Files.lines() 快 10%~15%,但代码量翻倍;用 Files.readAllLines() 内存占用高但适合小文件(

实操建议:

  • 对单文件统计,优先用 Files.readAllLines(path, cs) + for (String line : lines),避免 Stream 创建开销
  • 并发统计多个文件?别直接 .parallel() ——I/O 密集型任务并行反而降低吞吐,用固定大小线程池(如 Executors.newFixedThreadPool(4))更稳
  • 如果目标只是粗略估算(比如“这个模块大概两千行”),跳过内容扫描,只用 Files.lines(path).count() + 后缀过滤,速度能快 5 倍

真正难的不是写出来,是搞清你要的“行数”到底指什么:IDE 显示的?SonarQube 认的?还是老板嘴里“一个人周能写多少行”的那个行?定义模糊,工具再准也没用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

203

2023.11.20

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1946

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1168

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11.1万人学习

Java 教程
Java 教程

共578课时 | 80.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号