python解压gz_使用gzip库与shutil库读取.gz压缩文件教程

幻夢星雲

发布时间：2026-02-04 19:53:31

676人浏览过

来源于php中文网

原创

gzip.open()读.gz文件需用'rt'模式并指定encoding，shutil.unpack_archive()不支持单.gz文件，gzip.decompress()适用于小文件内存解压，判断.gz格式应使用gzip.GzipFile校验而非后缀。

python解压gz_使用gzip库与shutil库读取.gz压缩文件教程

gzip.open() 读取 .gz 文件最常用也最容易出错

直接用 gzip.open() 打开 .gz 文件是默认方案，但默认编码是二进制模式，读出来的是 bytes，不是字符串。如果你直接 .read() 后打印或正则匹配，大概率遇到 UnicodeDecodeError。

正确做法是显式指定 encoding 参数：

import gzip
with gzip.open('data.txt.gz', 'rt', encoding='utf-8') as f:
    content = f.read()

注意三个关键点：

'rt' 表示文本模式（read + text），不能写成 'r'（那是二进制）
必须加 encoding，否则 Python 3 下 gzip.open(..., 'rt') 会尝试用系统默认编码（如 Windows 的 cp1252），不是 UTF-8
如果文件实际是 GBK、ISO-8859-1 等编码，encoding 要对应改，否则乱码

shutil.unpack_archive() 不支持 .gz 单文件解压

很多人搜 “Python 解压 gz”，看到 shutil.unpack_archive() 就直接用，结果报错：ValueError: Unknown archive format '.gz'。这是因为 shutil.unpack_archive() 只支持 .zip、.tar、.gztar（即 .tar.gz）这类归档格式，不支持纯 .gz（单文件压缩）。

立即学习“Python免费学习笔记（深入）”；

如果你手头是 log.gz 这种单个文件压缩，别用 shutil.unpack_archive() —— 它根本不管用。

真正能处理单 .gz 的只有：gzip 库本身，或配合 shutil.copyfileobj() 做流式解压到文件：

Hika AI

Hika AI是一个免费的AI智能搜索引擎

下载

import gzip
import shutil
with gzip.open('input.gz', 'rb') as f_in:
with open('output.txt', 'wb') as f_out:
shutil.copyfileobj(f_in, f_out)

gzip.decompress() 适合内存小、内容短的场景

当你已经用 open(..., 'rb') 读入了整个 .gz 文件的字节内容（比如从网络响应、数据库 blob 中拿到），可以用 gzip.decompress() 直接解压：

import gzip
compressed_bytes = open('file.gz', 'rb').read()
decompressed_bytes = gzip.decompress(compressed_bytes)
text = decompressed_bytes.decode('utf-8')

但要注意：

这个方法把整个压缩内容加载进内存再解压，不适合几百 MB 以上的 .gz 文件
它不接受文件路径，只接受 bytes 对象，所以不能代替 gzip.open()
如果原始压缩数据不是标准 gzip 格式（比如被截断、混入其他数据），会抛 OSError: Not a gzipped file

判断文件是否真的是 .gz 格式，别光看后缀

用户传来的文件叫 data.gz，不代表它真是 gzip 压缩的——可能后缀错了、文件损坏、或者根本是 zip 改名。靠后缀判断容易在生产环境翻车。

安全做法是用 gzip.GzipFile 尝试读取头部：

import gzip
def is_gz_file(filepath):
try:
with gzip.GzipFile(filepath) as f:
f.read(1)  # 只读 1 字节触发 header 检查
return True
except OSError:
return False

这个函数比检查 filepath.endswith('.gz') 可靠得多。如果返回 False，就该换别的解压逻辑，而不是硬上 gzip.open()。

gzip 格式头部有固定魔数 b'\x1f\x8b'，但手动比对不如让 GzipFile 自己校验来得稳妥——它还会检查 CRC 和长度。

如何使用 Selenium 提取指定 div 中所有图片链接

运算符的优先级顺序python_易混淆的and/or与比较运算符优先级

python运算符优先级别_按类别划分的详细分级与使用场景解析

Python 文件上传与下载的实现要点

python源码之家_PyPI官方库、Awesome-Python等高质量源码集合站

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

python windows 编码字节解压 win 文件压缩 format 字符串对象 windows 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 资源泄漏与异常处理的关系下一篇：暂无

作者最新文章

百度抢票没抢到票钱会退回来吗百度抢票未成功退款失败解决方法

2026-02-04 16:51

微信怎样才能让别人加我？生成我的二维码和微信号方法

2026-02-04 17:01

cad看图王在线打印入口 cad看图王网页版图纸输出

2026-02-04 17:03

运算符的优先级顺序python_易混淆的and/or与比较运算符优先级

2026-02-04 17:15

如何用PS变量功能批量生成不同文字内容的图片？

2026-02-04 17:32

PS批量锐化图片教程让你的照片细节瞬间清晰

2026-02-04 17:33

Photoshop批量拉直图片修正地平线倾斜的高效方法

2026-02-04 17:33

python运算符优先级最高_指数**、括号()及属性访问.的优先级详解

2026-02-04 17:34

拷贝漫画同人区入口拷贝漫画全集免费阅读

2026-02-04 18:04

天天漫画隐藏福利入口天天漫画福利免费在线入口

2026-02-04 18:04

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

864

2023.07.31

python中的format是什么意思

python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

439

2024.06.27

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

381

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

213

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1506

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

629

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

738

2024.03.22