0

0

C#的Compression命名空间如何压缩数据?

星降

星降

发布时间:2025-08-12 12:53:01

|

994人浏览过

|

来源于php中文网

原创

c#的system.io.compression命名空间提供了deflatestream、gzipstream和brotlistream用于数据压缩与解压缩。1. gzipstream因兼容性好、含校验和,适用于文件归档和http压缩;2. deflatestream仅含纯压缩数据,适合内部通信或自定义协议;3. brotlistream压缩比高,适合文本为主的web内容传输;4. 性能优化需根据场景选择compressionlevel,合理设置缓冲区大小,使用异步操作提升响应性;5. 避免重复压缩已压缩格式数据,区分内存流与文件流的使用场景;6. 常见错误包括未使用using导致资源泄露、解压时未捕获invaliddataexception、编码不一致引发乱码、未及时flush数据及大文件处理导致内存溢出,均需通过规范编码和流式处理规避。正确使用这些工具可在压缩比、速度与资源消耗间取得平衡。

C#的Compression命名空间如何压缩数据?

C#的

System.IO.Compression
命名空间,是我们在.NET环境中处理数据压缩与解压缩的核心工具。它主要提供了
DeflateStream
GZipStream
BrotliStream
这几个关键类,它们就像数据的“压缩机”和“解压机”,能够把原始数据流变得更小,或者将压缩过的数据还原。简单来说,就是通过这些类把你的数据流(比如文件内容、网络传输的数据)进行管道式处理,从而实现体积的缩减。

解决方案

要使用C#的

System.IO.Compression
命名空间来压缩数据,最常见的方式是利用
GZipStream
DeflateStream
。从实际应用来看,
GZipStream
是更常用的选择,因为它包含了文件头和校验和,兼容性更好,也更符合行业标准。
DeflateStream
则更“纯粹”,只包含压缩后的数据,没有额外的元信息。而
BrotliStream
则是.NET Core/.NET 5+中新增的,通常能提供更好的压缩比,尤其适合文本数据。

以下是使用

GZipStream
进行压缩和解压缩的基本示例。
DeflateStream
BrotliStream
的用法非常相似,只需要替换对应的类名即可。

1. 使用GZipStream进行数据压缩

using System;
using System.IO;
using System.IO.Compression;
using System.Text;

public class DataCompressor
{
    public static byte[] CompressString(string text)
    {
        if (string.IsNullOrEmpty(text))
            return new byte[0];

        byte[] originalBytes = Encoding.UTF8.GetBytes(text); // 确保编码一致性

        using (MemoryStream outputStream = new MemoryStream())
        {
            // 使用CompressionLevel.Optimal通常能获得最好的压缩比,但会消耗更多CPU
            // CompressionLevel.Fastest则更快,但压缩比可能稍逊
            using (GZipStream compressionStream = new GZipStream(outputStream, CompressionMode.Compress, true))
            {
                compressionStream.Write(originalBytes, 0, originalBytes.Length);
                // 这一步很重要,确保所有数据都被写入到底层流
                // GZipStream的Dispose方法会自动调用Flush,但显式调用有时能避免一些奇怪的问题
                compressionStream.Flush(); 
            }
            return outputStream.ToArray();
        }
    }

    public static void CompressFile(string inputFile, string outputFile)
    {
        using (FileStream originalFileStream = new FileStream(inputFile, FileMode.Open, FileAccess.Read))
        using (FileStream compressedFileStream = new FileStream(outputFile, FileMode.Create, FileAccess.Write))
        using (GZipStream compressionStream = new GZipStream(compressedFileStream, CompressionMode.Compress))
        {
            originalFileStream.CopyTo(compressionStream);
        }
    }
}

2. 使用GZipStream进行数据解压缩

using System;
using System.IO;
using System.IO.Compression;
using System.Text;

public class DataDecompressor
{
    public static string DecompressBytesToString(byte[] compressedBytes)
    {
        if (compressedBytes == null || compressedBytes.Length == 0)
            return string.Empty;

        using (MemoryStream inputStream = new MemoryStream(compressedBytes))
        using (GZipStream decompressionStream = new GZipStream(inputStream, CompressionMode.Decompress))
        using (MemoryStream outputStream = new MemoryStream())
        {
            try
            {
                decompressionStream.CopyTo(outputStream);
                return Encoding.UTF8.GetString(outputStream.ToArray());
            }
            catch (InvalidDataException ex)
            {
                // 数据可能已损坏或不是有效的GZip格式
                Console.WriteLine($"解压失败:{ex.Message}");
                return string.Empty;
            }
        }
    }

    public static void DecompressFile(string inputFile, string outputFile)
    {
        using (FileStream compressedFileStream = new FileStream(inputFile, FileMode.Open, FileAccess.Read))
        using (FileStream decompressedFileStream = new FileStream(outputFile, FileMode.Create, FileAccess.Write))
        using (GZipStream decompressionStream = new GZipStream(compressedFileStream, CompressionMode.Decompress))
        {
            try
            {
                decompressionStream.CopyTo(decompressedFileStream);
            }
            catch (InvalidDataException ex)
            {
                Console.WriteLine($"文件解压失败:{ex.Message}");
                // 可能需要删除部分解压的文件以避免留下损坏的文件
                File.Delete(outputFile);
            }
        }
    }
}

为什么选择不同的压缩算法?Deflate、GZip和Brotli各有什么适用场景?

在C#的

System.IO.Compression
里,我们有几种选择:Deflate、GZip和Brotli。这三者虽然都能实现数据压缩,但它们的设计哲学和适用场景却不尽相同。了解它们各自的特点,能帮助我们做出更明智的选择。

DeflateStream:纯粹的压缩核心 Deflate算法本身是LZ77和霍夫曼编码的结合,它非常高效。

DeflateStream
在C#中提供的是这种“纯粹”的Deflate压缩。它的特点是没有额外的文件头或尾部信息,因此输出的数据量是最精简的。

  • 适用场景: 我个人在处理一些内部服务间通信时,如果对性能有极致要求且数据量不大,会倾向于Deflate。比如,你正在构建一个自定义的网络协议,或者需要在内存中快速压缩解压数据而不需要兼容外部工具时,DeflateStream是一个不错的选择。它最纯粹,开销最小。

GZipStream:广泛兼容的行业标准 GZip实际上是在Deflate数据流的基础上,添加了一个RFC 1952定义的GZip文件头和尾部(包括CRC32校验和、原始文件大小等元数据)。这使得GZip格式的文件具有自我描述性,并且可以检测数据完整性。

  • 适用场景: GZip几乎是数据压缩的“瑞士军刀”。对外暴露的API或者文件存储,GZip几乎是标配,因为它兼容性最好。它被广泛用于HTTP压缩(如ASP.NET Core中的响应压缩)、文件归档(
    .gz
    文件)以及各种跨平台的数据交换。如果你需要将压缩数据发送给第三方系统,或者希望压缩后的文件能被大多数工具识别和解压,那么GZipStream是你的首选。

BrotliStream:为Web而生,追求极致压缩比 Brotli是Google开发的一种相对较新的无损压缩算法,在许多情况下,尤其是在处理文本数据时,它能提供比Deflate和GZip更好的压缩比。但作为交换,它的压缩速度通常会慢一些,解压速度也可能略慢于GZip。

  • 适用场景: Brotli嘛,那真是为Web而生,尤其当你网站内容以文本为主时(CSS、JavaScript、HTML),它能给你带来惊喜。现代浏览器普遍支持Brotli压缩,因此在Web服务器端开启Brotli压缩可以显著减少传输的数据量,提升页面加载速度。如果你主要目标是优化Web内容传输,并且客户端支持Brotli,那么投入一些CPU资源换取更高的压缩率是非常值得的。对于离线数据存储,如果对存储空间有极致要求且CPU资源充裕,也可以考虑。

选择哪个,真的要看你的具体需求:是追求速度,还是极致的压缩比,抑或是广泛的兼容性。没有银弹,只有最适合的工具。

艺映AI
艺映AI

艺映AI - 免费AI视频创作工具

下载

在实际项目中,如何优化C#数据压缩的性能和效率?

仅仅知道如何使用

System.IO.Compression
是不够的,在实际项目中,尤其当处理大量数据时,优化压缩的性能和效率变得至关重要。我在这里分享一些我在实践中总结的经验和技巧:

1. 合理选择

CompressionLevel
GZipStream
DeflateStream
的构造函数允许你指定
CompressionLevel
枚举:

  • CompressionLevel.Optimal
    :提供最好的压缩比,但压缩时间最长,CPU消耗最大。
  • CompressionLevel.Fastest
    :压缩速度最快,但压缩比可能不是最优。
  • CompressionLevel.NoCompression
    :不进行压缩,数据直接通过。 这个参数我用得比较多,根据实际场景调整,有时候一点点压缩率的提升,可能要付出巨大的CPU代价,不划算。例如,如果你在做实时网络传输,
    Fastest
    可能更合适;如果是离线归档,那么
    Optimal
    能帮你省下更多存储空间。

2. 缓冲区大小的考量 当你使用

Stream.CopyTo
方法进行流式操作时,它内部会使用一个缓冲区。默认的缓冲区大小通常是4KB或8KB。对于大文件操作,一个合适的缓冲区大小(比如64KB或128KB)可以显著减少I/O操作的次数,从而提升性能。但要注意,过大的缓冲区会增加内存消耗。 如果你自己手动读写流,也应该使用固定大小的缓冲区来分块处理数据,而不是一次性把所有数据读到内存里。

3. 异步操作提升响应性 对于长时间的压缩或解压缩操作,尤其是在UI线程或Web请求处理中,使用异步方法(如

CopyToAsync
)可以避免阻塞线程,提升应用程序的响应性。这在处理大文件时尤为重要。

// 异步压缩文件示例
public static async Task CompressFileAsync(string inputFile, string outputFile)
{
    using (FileStream originalFileStream = new FileStream(inputFile, FileMode.Open, FileAccess.Read))
    using (FileStream compressedFileStream = new FileStream(outputFile, FileMode.Create, FileAccess.Write))
    using (GZipStream compressionStream = new GZipStream(compressedFileStream, CompressionMode.Compress))
    {
        await originalFileStream.CopyToAsync(compressionStream);
    }
}

4. 避免重复压缩 这是个常见的坑,很多人以为所有数据都能压,结果适得其反。像JPEG图片、MP4视频、ZIP压缩包等,它们本身就是经过高度压缩的格式。再次对其进行GZip或Deflate压缩,不仅不会带来多少收益,反而可能因为添加了额外的GZip头和尾,导致文件体积略微增大,同时白白浪费了CPU资源。在决定压缩前,先判断数据的类型。

5. 内存流与文件流的选择

  • MemoryStream
    适用于数据量较小,或者需要在内存中快速处理的场景。优点是速度快,不需要磁盘I/O。缺点是所有数据都在内存中,如果数据量过大容易导致内存溢出。
  • FileStream
    适用于处理大文件,它会利用磁盘进行存储,避免内存压力。虽然有磁盘I/O开销,但对于GB级别的文件,这是几乎唯一的选择。

总的来说,优化是一个权衡的过程。你需要在压缩比、压缩/解压速度、CPU消耗和内存占用之间找到一个平衡点,这往往需要根据你的具体应用场景进行测试和调整。

处理压缩数据时常见的错误和陷阱有哪些?如何避免?

在C#中使用

System.IO.Compression
处理数据,虽然看起来直接,但实际操作中还是有一些常见的“坑”和错误,如果处理不当,轻则数据损坏,重则程序崩溃。作为一名开发者,我踩过不少这样的雷,这里总结一些经验,希望能帮助你避开它们。

1.

using
语句的缺失:流管理的大忌 这几乎是C#流操作的铁律,不
using
就等着资源泄露或数据不完整吧。
Stream
类(包括
GZipStream
DeflateStream
等)实现了
IDisposable
接口。这意味着它们需要被正确地关闭和释放底层资源。如果忘记使用
using
语句,或者手动调用
Dispose()
,那么文件句柄可能不会被及时释放,导致文件被锁定,或者写入的数据没有被完全刷新到磁盘。

  • 避免方法: 始终使用
    using
    语句来包裹所有
    Stream
    的实例化。这能确保即使发生异常,资源也能被正确释放。

2. 数据完整性问题:

InvalidDataException
当你尝试解压缩一个损坏的、不完整的或者根本不是GZip/Deflate格式的数据流时,
GZipStream
DeflateStream
会抛出
InvalidDataException
。这通常发生在网络传输中断、文件下载不完整或手动修改了压缩数据之后。

  • 避免方法:
    • 在解压缩时,务必使用
      try-catch
      块来捕获
      InvalidDataException
    • 对于GZip格式,它的尾部包含CRC32校验和,这能帮助我们检测数据是否在传输或存储过程中被损坏。如果校验和不匹配,解压过程就会失败。
    • 确保发送方和接收方使用相同的压缩算法和编码方式。

3. 编码问题:文本数据的隐形杀手 尤其在跨平台或不同系统间传递数据时,编码问题简直是噩梦。如果你压缩的是文本数据(比如字符串),那么在将其转换为字节数组进行压缩时,以及在解压缩后将其转换回字符串时,必须使用相同的字符编码(如

Encoding.UTF8
)。否则,解压出来的将是一堆乱码。

  • 避免方法:
    Encoding.GetBytes()
    Encoding.GetString()
    时,始终明确指定编码,并且两端保持一致。
    Encoding.UTF8
    是通常推荐的选择,因为它兼容性好,并且对非ASCII字符支持良好。

4.

Flush()
的误解与必要性 有时候,你会发现压缩后的文件比预期的小,或者解压时报错,这可能是因为数据没有完全被刷新到底层流。虽然
GZipStream
Dispose()
方法会自动调用
Flush()
,但在某些复杂场景下(例如,你需要在一个
GZipStream
被关闭之前,从它所写入的底层流中读取数据),你可能需要手动调用
compressionStream.Flush()
来确保所有缓冲的数据都被写入。

  • 避免方法: 如果你在同一个
    MemoryStream
    上先压缩后立即解压,或者需要确保数据立即写入,可以考虑在写入完成后显式调用
    Flush()

5. 内存溢出:大文件的陷阱 如果尝试将一个非常大的文件(比如几个GB)一次性读入

byte[]
数组,或者使用
MemoryStream
来处理,很可能会导致内存溢出(
OutOfMemoryException
)。

  • 避免方法: 对于大文件,始终采用流式处理(
    FileStream
    ),而不是一次性加载到内存。
    Stream.CopyTo()
    方法就是为此设计的,它会分块读取和写入数据,避免内存压力。

这些错误和陷阱,很多时候不是代码逻辑上的错误,而是对底层机制理解不足造成的。多思考数据流向,多利用

using
try-catch
,就能规避大部分问题。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

556

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

754

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

477

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

434

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

1011

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

658

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

553

2023.09.20

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 7.1万人学习

C 教程
C 教程

共75课时 | 4.1万人学习

C++教程
C++教程

共115课时 | 13万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号