关于压缩：zlib，gzip和zip如何相关？它们有什么共同之处，它们有何不同？

How are zlib, gzip and zip related? What do they have in common and how are they different?

zlib中使用的压缩算法与gzip和zip中的压缩算法基本相同。什么是gzip和zip？它们有何不同，它们是如何相同的？

简写：

.zip是一种归档格式，通常使用Deflate压缩方法。 .gz gzip格式适用于单个文件，也使用Deflate压缩方法。通常将gzip与tar结合使用以生成压缩归档格式.tar.gz。 zlib库提供了Deflate压缩和解压缩代码，供zip，gzip，png(使用defl数据上的zlib包装器)和许多其他应用程序使用。

长表：

ZIP格式是由Phil Katz开发的一种开放格式，具有开放式规范，其实现PKZIP是共享软件。它是一种存档格式，用于存储文件及其目录结构，其中每个文件都是单独压缩的。文件类型为.zip。可以选择加密文件以及目录结构。

ZIP格式支持多种压缩方法：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

0 - The file is stored (no compression)
1 - The file is Shrunk
2 - The file is Reduced with compression factor 1
3 - The file is Reduced with compression factor 2
4 - The file is Reduced with compression factor 3
5 - The file is Reduced with compression factor 4
6 - The file is Imploded
7 - Reserved for Tokenizing compression algorithm
8 - The file is Deflated
9 - Enhanced Deflating using Deflate64(tm)
10 - PKWARE Data Compression Library Imploding (old IBM TERSE)
11 - Reserved by PKWARE
12 - File is compressed using BZIP2 algorithm
13 - Reserved by PKWARE
14 - LZMA (EFS)
15 - Reserved by PKWARE
16 - Reserved by PKWARE
17 - Reserved by PKWARE
18 - File is compressed using IBM TERSE (new)
19 - IBM LZ77 z Architecture (PFS)
97 - WavPack compressed data
98 - PPMd version I, Rev 1

方法1至7是历史的并且未使用。方法9至98是相对较新的添加物，并且具有不同的少量使用。在ZIP格式中真正广泛使用的唯一方法是方法8，Deflate，以及一些较小范围的方法0，它根本不压缩。实际上，您将在野外遇到的每个.zip文件将仅使用方法8和0，可能只是方法8.(方法8还有一种方法可以有效地存储数据而不进行压缩和相对较小的扩展，以及方法0无法流式传输，而方法8可以。)

文件容器的ISO / IEC 21320-1：2015标准是受限制的zip格式，例如用于Java归档文件(.jar)，Office Open XML文件(Microsoft Office .docx，.xlsx，.pptx)，Office文档格式化文件(.odt，.ods，.odp)和EPUB文件(.epub)。该标准将压缩方法限制为0和8，以及其他约束，如无加密或签名。

大约在1990年，Info-ZIP小组编写了zip和unzip实用程序的可移植，免费，开源实现，支持使用Deflate格式进行压缩，以及对该格式和早期格式进行解压缩。这极大地扩展了.zip格式的使用。

在90年代早期，gzip格式是作为Unix compress实用程序的替代品而开发的，该实用程序源自Info-ZIP实用程序中的Deflate代码。 Unix compress旨在压缩单个文件或流，将.Z附加到文件名。 compress使用LZW压缩算法，该算法当时属于专利，其免费使用受到专利持有人的争议。虽然Deflate的一些具体实现是由Phil Katz申请专利的，但格式不是，所以有可能编写一个不侵犯任何专利的Deflate实现。在过去的20多年里，这种实施并未受到如此严峻的挑战。 Unix gzip实用程序旨在作为compress的替代品，实际上能够解压缩compress压缩数据(假设您能够解析该句子)。 gzip将.gz附加到文件名。 gzip使用Deflate压缩数据格式，它比Unix compress压缩得更好，具有非常快速的解压缩，并添加CRC-32作为数据的完整性检查。标头格式还允许存储比允许的compress格式更多的信息，例如原始文件名和文件修改时间。

虽然compress仅压缩单个文件，但通常使用tar实用程序将文件存档，其属性及其目录结构创建为单个.tar文件，然后使用制作.tar.Z文件。事实上，tar实用程序已经并且仍然可以选择同时进行压缩，而不必将tar的输出传递给compress。这一切都转移到gzip格式，tar有一个选项可以直接压缩到.tar.gz格式。 tar.gz格式压缩比.zip方法更好，因为.tar的压缩可以利用文件之间的冗余，特别是许多小文件。 .tar.gz是Unix上最常用的归档格式，因为它具有非常高的可移植性，但是还有更有效的压缩方法，所以你经常会看到.tar.bz2和.tar.xz档案。

与.tar不同，.zip在末尾有一个中央目录，它提供了一个内容列表。这和单独的压缩提供了对.zip文件中各个条目的随机访问。必须对.tar文件进行解压缩并从头到尾进行扫描才能构建目录，这就是.tar文件的列出方式。

在gzip推出后不久，大约在20世纪90年代中期，同样的专利纠纷质疑了.gif图像格式的免费使用，广泛用于公告板和万维网(当时的新事物) 。因此，一个小组创建了PNG无损压缩图像格式，文件类型.png，以替换.gif。该格式还使用Deflate格式进行压缩，这是在图像数据上的过滤器暴露更多冗余之后应用的。为了促进PNG格式的广泛使用，创建了两个免费的代码库。 libpng和zlib。 libpng处理了PNG格式的所有功能，zlib提供了压缩和解压缩代码供libpng以及其他应用程序使用。 zlib改编自gzip代码。

所有提到的专利都已过期。

zlib库支持Deflate压缩和解压缩，以及围绕deflate流的三种包装。它们是：根本没有包装("原始"deflate)，zlib包装(用于PNG格式数据块)和gzip包装，为程序员提供gzip例程。 zlib和gzip包装的主要区别在于zlib包装更紧凑，6个字节，而gzip最少18个字节，完整性检查Adler-32运行速度比gzip使用的CRC-32快。原始deflate由读取和写入.zip格式的程序使用，这是另一种包装缩小压缩数据的格式。

zlib现在广泛用于数据传输和存储。例如，服务器和浏览器的大多数HTTP事务使用zlib压缩和解压缩数据。

deflate的不同实现可以导致相同输入数据的不同压缩输出，如可选择的压缩级别的存在所证明的，其允许折衷CPU时间的压缩有效性。 zlib和PKZIP并不是deflate压缩和解压缩的唯一实现。 7-Zip归档实用程序和Google的zopfli库都能够比zlib使用更多的CPU时间，以便在使用deflate格式时挤出最后几位，与zlib相比，压缩大小减少了几个百分点压缩等级。 pigz实用程序是gzip的并行实现，包括使用zlib(压缩级别1-9)或zopfli(压缩级别11)的选项，并通过在多个处理器上拆分大文件的压缩来稍微减轻使用zopfli的时间影响和核心。

好。