Java中ZipInputStream只能顺序读取ZIP条目,需用getNextEntry()循环遍历,每次调用后流自动定位到条目数据起始;解压前须标准化路径防../攻击,创建父目录并安全写入;因不读中央目录,无法获取文件列表或准确大小,需用ZipFile替代。

Java中用ZipInputStream解压,核心是逐个读取ZIP条目(ZipEntry),再按需提取内容——它不支持随机访问,只能顺序读取,且无法直接获取文件列表或总大小。
如何正确遍历并解压ZIP条目
必须用getNextEntry()循环获取每个条目,每次调用后流位置自动跳转到该条目的数据起始处。注意:不能跳过条目或反复读取同一个条目,否则流状态会错乱。
- 调用
getNextEntry()前确保上一个条目已完全读完(比如用read()读到-1,或用skip()跳过剩余字节) - 每个
ZipEntry代表一个文件或目录,通过isDirectory()区分;路径名用getName()获取,含原始层级结构 - 读取完当前条目数据后,必须再调用一次
getNextEntry()才能进入下一个——返回null表示结束
解压时如何安全创建目录和写入文件
ZIP中的路径可能是data/config.json或images/logo.png,也可能含../等危险路径。实际解压前应做路径校验:
- 用
Paths.get(entry.getName()).normalize()标准化路径,检查是否以..开头或包含..片段 - 创建父目录:用
Files.createDirectories(file.getParent()),自动处理多级目录 - 写入文件时建议用
Files.write(path, bytes, StandardOpenOption.CREATE),避免覆盖系统关键文件
为什么不能直接用ZipInputStream获取文件列表或大小
ZipInputStream是“流式”设计,只解析本地文件头(Local File Header),不读取中央目录(Central Directory)。而文件总数、索引、压缩前大小等元信息都存在中央目录里——它在ZIP末尾,流还没读到那儿。
立即学习“Java免费学习笔记(深入)”;
- 想提前知道条目数或某文件是否存在?改用
ZipFile(基于随机访问,可直接entries()或getEntry(name)) -
ZipInputStream的getSize()和getCompressedSize()可能返回-1,因为本地头里不一定存这些值 - 若需边解压边统计,只能自己累加读取的字节数,不能依赖Entry字段
常见坑与规避方式
容易忽略编码、缓冲、资源释放等细节,导致中文乱码、性能差或文件句柄泄漏:
- ZIP文件名编码默认是IBM437,但国内常用GBK/UTF-8。可用
ZipInputStream子类重写createZipEntry(String),或改用Apache Commons Compress(支持指定编码) - 务必用
try-with-resources包裹ZipInputStream和输出FileOutputStream,防止流未关闭 - 别用单字节
read(),至少用8KB缓冲区(byte[] buf = new byte[8192]),大幅提升IO效率
基本上就这些。用ZipInputStream适合处理大ZIP或内存受限场景,但要接受“只能顺序读+无预览”的限制。真需要灵活操作,优先考虑ZipFile。









