首发于 UC 内核发布

文本压缩算法的对比和选择

本文将粗略介绍主要的数据压缩算法，以及最新针对Web文本资源的zStd和Brotli算法的设计要点。为Web业务应用如何使用它们替换传统gzip提供些参考。最后演示下达成文本有损压缩的尝试。

在数据压缩领域里，文本压缩的历史最久，从Morse到Huffman和算术编码(Arithmetic coding)，再到基于字典和上下文的压缩算法。各种算法不断改进，从通用算法，到现在更具针对性的算法，结合应用场景的垂直化的趋势越来越明显。所以在选择或者评价压缩算法，一定要结合实际应用场景加以考虑，包括字符集、内容的大小、压缩及解压的性能、以及各端(特别是浏览器和应用)支持情况。

数据压缩算法

一套完整的压缩算法，实际以下几个部分：

其中除编码外的三项目的都是找到一个适于编码的表示方法，而编码则是以简化的方法进行输出。最典型的建模方法是基于字符的概率统计，而基于上下文的建模方法(Context Modeling)则是从文本内容出发，它们追求的目标都是让字符的出现概率越不平均越好。转换方法是最具代表性的是基于词典的转换，比如庞大的LZ族系。Huffman和算术编码则是常见的编码方法。

因为语言本身的特性，基于上下文的建模方法(Context Modeling，如PPM*系列算法)可以得到更好的压缩比，但却由于它的性能问题却很难普及。当前比较流行的压缩算法中其突破的核心只有两个:

下图为六种算法的压缩比测试的结果，分别针对一本英文小说，一本中文小说，和一份较小(4KB+)的中文混合的JSON数据。

* 其中PPM是Context Modeling的代表算法。

可以看到算法对字符集(中文与英文)和大小都是敏感的，表现各不相同。

Huffman编码受到了Morse编码的影响，背后的思想就是将最高概率出现的字母以最短的编码表示。比如英文中字母e出现概率为12%，字母z的出现概率还不到1%（数据来源: Letter Frequency）。 算术编码以及区间编码**，它们是利用字符概率分布，将字符组合转变为概率的层次划分，最终转换一个固定的数字(算术编码和区间编码最大差别就在于一个使用小数，另一个使用整数)。可以对应下图考虑下AAAA，以及AAB的编码输出 (在0-1的轴上找到一个数字来表示。)。

参考维基上的说明: 算术编码。上面这两类算法一直霸占着算法编码领域，各自拥有大量的变形算法。

从实用效果上，算术编码的压缩比一般要好于Huffman。但后者的性能则要优于前者，两者都有自适应的算法，不必依赖全文进行概率统计，但算术编码还是需要更大的计算量。

ANS是前两类编码算法战争的终结者。它在2014年被提出来，随后很快就得到了大量应用。本质上属于算术编码，但它成功地找到了一个用近似概率表示的表格，将原来的概率计算转换为查表。所以它是一个达到Huffman编码效率的算术编码方法。 FSE(Finite State Entropy)是ANS最为著名的实现。有兴趣进一步了解，可以看这里。

之前提过建模方法，要追求字符出现概率的不平均。比如动态马尔可夫压缩(DMC, dynamic Markov coding)。仍以英为例，全文来看，字母e出现概率最高，但是在首字母这种状态下，字母t的出现概率可以接近17%。就是字母在是否首字母的两种状态下是有两种概率分布的：

* 非首母下，各字母的出现概率有可能还有变化。

基于上下文的建模，可以想象下成语填空或者诗词填空，其中有一个条件概率的问题。在下图中，如果单个字符看，我们只能从整体汉字的概率分布来考虑```人```后面的字。如果从词的角度发出，后面确实可能会出现几个概率较大的单字，这是一阶上下文。再进一步，如果之前出现过单字'华'，这是二阶上下文(2nd order)，后面文字出现的概率又会发生变化。如果再往前取一个单字又是'中'，那么不单是后面单字'民'的概率极高，而且再往后有三个字的出现概率也是奇高的。在随后编码时，我们就可以为它找出一个最短的表示。

实际应用不可能让算法先要理解文字，绝大部分情况也不可能为此先建一个语料库，即使有语料库，其处理性能仍然会是很大的问题。其实我们也不需要得到极为精确的相关性，只要快速掌握到一定的模式就足够了。好像学生根本不需要做大规模的训练，就能很快注意到老师的口头禅或者常用语，进而学得有模有样。所以可行的算法只需要基于一部分内容的上下文进行预测，这就是PPM（部分匹配预测，prediction by partial match）以及各种演进版本。

转换(Transform)里词典方法很好理解，就不介绍了，已经是应用最为广泛技术。而文本压缩基本目标是无损压缩，所以**去冗余**这项我们最后再谈。

内容字符集与大小的影响

我们思考一个问题：为什么各种算法对内容字符集和大小的效果不同？

字符集的差异很好理解，由文字的信息熵所决定。有很多人在连续很多年都讨论过这个问题，也有非常精确的汉字信息熵的评价。单纯从当前编码的角度来看，就是作为中文基础单元的单字数远比英文中基本字母多得多。大的字符集很自然就使得字符间的概率差异较小，所以此时Huffman和算术编码这类依赖于概率统计的算法对于中文压缩都远不及对英文压缩的效果。

回头再看下上面算法对比结果。当纯英文时，算术编码压缩比优于Huffman。遇到大字符集的中文时，基本和Huffman一样了。这两个算法在这个测试场景没有拉来明显差距，可以动手换个二进数据再对比一下。

如果遇到中英文混合，且内容较小的JSON数据时，算术编码就歇菜了。

内容大小的影响是来自于算法本身的'学习成本'。从统计的角度看，内容大小代表了样本的多寡，会直接影响统计结果。以基于概率统计的算法为例，如果极少字符，有利于编码。但同时没有足够的数据量，字符间没法形成概率分布的差异，又不利于编码。两者共同决定了最终的压缩比。

在测试数据里基于上下文建模的PPM表现明显优于Huffman和算术编码。说明虽然仅仅在局部理解字符出现的相关性，就已经能够很好地优化效果了。即使是小数据，也远高于前面两类的效果。

到这里，请思考一个问题：

什么方法能降低压缩算法的学习成本？

那么我们需要先定义:

字符集是什么？它的规模多大？字符的概率分布如何？
内容会多大？效率和费用的问题，我们不讨论了。这个时候**转换**就能发挥最大的功效了，特别预设字典类的算法。

下面是一更为具体的问题，也可以练习一下:

如果我们要设计一个极短文本（如100字以内）的压缩算法，什么会是最为效的算法？

Brotli与zStd的对比和选择

在Web应用场景下，压缩算法要追求的是更小且更快（对于流式数据，还有吞吐量的要求，另有算法应对），算法主要在压缩比和性能之间寻求平衡。目前页面上的各种文本资源主要还是使用gzip压缩，自zStd和Brotli推出后，我们该如何选择呢？如果你只想了解一下两者的选择，可以跳过下面关于两者对比的一节。

两个算法的对比

Brotli算法可以理解为LZ* + Context Modeling + Huffman编码。这是一个极为完整的无损压缩算法，三个部分全涉及到了。

它的compression level分为11级，一般测试而言它的level 5可以达到gzip 9的效果。主要特色包括:

* 词典的Sliding Window扩充到16MB
* 针对6国常用词及HTML&JS常用关键词的静态(预置)词典
* 基于二阶上下文建模 (2nd order context modeling) 注意context modeling的性能很弱，如果对压缩性能要求不高（如本地PC压缩），可以把level调到6以上测试下。

zStd是基于FSE(ANS的一个实现)，针对MB级别以上的数据，最为有效。但是对于小数据，它特别提供一个预置词典的方法（回顾下前面关于小数据压缩的问题）。这个方法需要通过对目标数据进行训练从而生成这个词典。步骤如下: