0

0

如何精确复制 ZIP/JAR 文件结构以保持原始文件大小一致

霞舞

霞舞

发布时间:2026-02-25 23:33:00

|

870人浏览过

|

来源于php中文网

原创

如何精确复制 ZIP/JAR 文件结构以保持原始文件大小一致

本文详解为何 python 复制 zip 或 jar 文件后体积不一致,并提供两种可靠方案:强制禁用压缩(zip_stored)与零级压缩(zip_deflated + compresslevel=0),确保元数据、文件顺序及字节级一致性。

本文详解为何 python 复制 zip 或 jar 文件后体积不一致,并提供两种可靠方案:强制禁用压缩(zip_stored)与零级压缩(zip_deflated + compresslevel=0),确保元数据、文件顺序及字节级一致性。

在构建 Java 工具链或进行二进制补丁操作时,常需通过 Python 精确复刻 JAR(本质为 ZIP 格式)文件。但如示例所示,直接使用 zipfile.ZipFile(..., 'a') 并调用 writestr() 后,新生成的 patched.jar 比原文件小 13 KB——这并非偶然偏差,而是由 ZIP 写入行为的默认配置导致的字节级不一致

根本原因在于:Python 的 zipfile 模块在创建新 ZIP 文件时,若未显式指定压缩方式与压缩等级,会采用默认策略(通常为 ZIP_DEFLATED + 自适应压缩级别),即使源文件本身是无压缩存储(ZIP_STORED)。更关键的是,'a'(append)模式在空文件上实际等效于 'w',但其内部初始化逻辑可能忽略原始 ZIP 的压缩属性、时间戳精度、扩展字段(如 UTF-8 路径标志位)、中央目录排序等细节——而 Java 运行时对 JAR 文件的校验(如签名验证、类加载器路径解析)高度依赖这些二进制层面的一致性。

要实现严格等长复制,必须主动控制 ZIP 写入参数。以下是两种经验证的可靠方法:

✅ 方法一:完全禁用压缩(推荐用于 JAR 复制)

JAR 规范明确要求类文件、资源等应以 STORED 方式存放(即原始字节直存,无压缩),这是保证可执行性和签名兼容性的前提。以下代码强制使用 ZIP_STORED 并关闭所有压缩逻辑:

WPS AI
WPS AI

金山办公发布的AI办公应用,提供智能文档写作、阅读理解和问答、智能人机交互的能力。

下载
import zipfile

with zipfile.ZipFile("original.jar", "r") as zin:
    with zipfile.ZipFile("patched.jar", "w", zipfile.ZIP_STORED) as zout:
        for entry in zin.infolist():
            # 直接读取原始字节并写入,保持原有 CRC32、文件大小、修改时间等元数据
            data = zin.read(entry.filename)
            zout.writestr(entry, data)

⚠️ 注意:zipfile.ZIP_STORED 已隐含 compresslevel=0,无需额外指定;且务必使用 with 语句确保文件句柄正确关闭,避免写入截断。

✅ 方法二:启用零级 Deflate 压缩(适用于需兼容特定工具链的场景)

某些构建系统或旧版 JDK 可能对 ZIP 中的 ZIP_DEFLATED 条目有特殊处理。此时可显式启用 Deflate,但将压缩等级设为 0(即仅做 LZ77 字面量编码,不进行 Huffman 编码优化,输出长度 ≈ 原始长度):

import zipfile

with zipfile.ZipFile("original.jar", "r") as zin:
    with zipfile.ZipFile("patched.jar", "w", zipfile.ZIP_DEFLATED, compresslevel=0) as zout:
        for entry in zin.infolist():
            data = zin.read(entry.filename)
            zout.writestr(entry, data)

? 验证技巧:使用 unzip -l original.jar 与 unzip -l patched.jar 对比各条目 Stored/Defl:N 标识;用 cmp -l original.jar patched.jar | head -20 检查前若干字节差异;在 7-Zip 中检查“Characteristics”是否均含 UTF8 标志(可通过 entry.flag_bits |= 0x800 手动设置,但 JAR 规范通常不要求)。

? 关键总结

  • 永远避免 'a' 模式进行全新复制:它不保证元数据继承,且易受缓存/状态残留影响;
  • 显式声明 mode='w' + compression + compresslevel 是可控性的基石;
  • 优先选用 ZIP_STORED:符合 JAR 规范,性能最优,体积最稳定;
  • 务必使用上下文管理器(with):防止因异常导致 ZIP 文件损坏或不完整;
  • 若需保留原始 ZIP 的注释、磁盘编号、AES 加密等高级特性,则需改用 zipfile.ZipInfo 手动构造条目并设置 extra 字段——但标准 JAR 场景中极少需要。

遵循上述任一方法,即可确保 patched.jar 与 original.jar 在文件大小、结构布局及运行时行为上完全一致。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
append用法
append用法

append是一个常用的命令行工具,用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容,可以阅读本专题下面的文章。

348

2023.10.25

python中append的用法
python中append的用法

在Python中,append()是列表对象的一个方法,用于向列表末尾添加一个元素。想了解更多append的更多内容,可以阅读本专题下面的文章。

1080

2023.11.14

python中append的含义
python中append的含义

本专题整合了python中append的相关内容,阅读专题下面的文章了解更多详细内容。

178

2025.09.12

batoto漫画官网入口与网页版访问指南
batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口,涵盖最新官网地址、网页版登录页面及防走失访问方式说明,帮助用户快速找到batoto漫画官方平台,稳定在线阅读各类漫画内容。

127

2026.02.25

Steam官网正版入口与注册登录指南_新手快速进入游戏平台方法
Steam官网正版入口与注册登录指南_新手快速进入游戏平台方法

本专题系统整理Steam官网最新可用入口,涵盖网页版登录地址、新用户注册流程、账号登录方法及官方游戏商店访问说明,帮助新手玩家快速进入Steam平台,完成注册登录并管理个人游戏库。

16

2026.02.25

TypeScript全栈项目架构与接口规范设计
TypeScript全栈项目架构与接口规范设计

本专题面向全栈开发者,系统讲解基于 TypeScript 构建前后端统一技术栈的工程化实践。内容涵盖项目分层设计、接口协议规范、类型共享机制、错误码体系设计、接口自动化生成与文档维护方案。通过完整项目示例,帮助开发者构建结构清晰、类型安全、易维护的现代全栈应用架构。

15

2026.02.25

Python数据处理流水线与ETL工程实战
Python数据处理流水线与ETL工程实战

本专题聚焦 Python 在数据工程场景下的实际应用,系统讲解 ETL 流程设计、数据抽取与清洗、批处理与增量处理方案,以及数据质量校验与异常处理机制。通过构建完整的数据处理流水线案例,帮助开发者掌握数据工程中的性能优化思路与工程化规范,为后续数据分析与机器学习提供稳定可靠的数据基础。

1

2026.02.25

Java领域驱动设计(DDD)与复杂业务建模实战
Java领域驱动设计(DDD)与复杂业务建模实战

本专题围绕 Java 在复杂业务系统中的建模与架构设计展开,深入讲解领域驱动设计(DDD)的核心思想与落地实践。内容涵盖领域划分、聚合根设计、限界上下文、领域事件、贫血模型与充血模型对比,并结合实际业务案例,讲解如何在 Spring 体系中实现可演进的领域模型架构,帮助开发者应对复杂业务带来的系统演化挑战。

1

2026.02.25

Golang 生态工具与框架:扩展开发能力
Golang 生态工具与框架:扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路,涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式,帮助开发者构建高效、可维护的 Go 工程体系,并提升团队协作与交付效率。

18

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号