Algorithm 这个文本压缩方案的名称是什么?

Algorithm 这个文本压缩方案的名称是什么?,algorithm,compression,text-compression,Algorithm,Compression,Text Compression,几年前,我读到一个非常轻量级的文本压缩算法,现在我找不到参考或记不起它的名字 它使用每个连续字符对之间的差异。例如,由于小写字母预测下一个字符也将是小写字母,因此差异往往很小。(它可能在减法之前抛出了前面字符的低位;我记不起来了。)即时复杂性降低。而且它是Unicode友好的 当然也有一些细节,以及产生比特流的细节,但它是超轻量的,适合嵌入式系统。没有大字典可储存。我很确定我看到的摘要在维基百科上,但我什么也找不到 我记得它是在谷歌发明的,但事实并非如此。我想你所关注的是博库,或者它的前身/继任

几年前,我读到一个非常轻量级的文本压缩算法,现在我找不到参考或记不起它的名字

它使用每个连续字符对之间的差异。例如,由于小写字母预测下一个字符也将是小写字母,因此差异往往很小。(它可能在减法之前抛出了前面字符的低位;我记不起来了。)即时复杂性降低。而且它是Unicode友好的

当然也有一些细节,以及产生比特流的细节,但它是超轻量的,适合嵌入式系统。没有大字典可储存。我很确定我看到的摘要在维基百科上,但我什么也找不到


我记得它是在谷歌发明的,但事实并非如此。

我想你所关注的是博库,或者它的前身/继任者之一。特别是,

BOCU的基本结构简单。在压缩代码点序列时,从当前代码点减去最后一个代码点,生成一个带符号的增量值,其范围从-10FFFF到10FFFF。然后将增量编码为一系列字节。微小的差异用少量字节编码;较大的差异被编码成连续较大的字节数


也许吧?@EvgenyKluev不,那是带字典的经典Lempel Ziv。将字母差异作为第一步几乎排除了字典,因为它会删除符号。@Potatosatter:Unicode TN确实使用L-Z,但它也对符号进行差异编码(“这就是为什么可以将两个2字节字符之间的差异存储为[-64,63]范围内的单字节有符号值的原因”);这两种技术是完全兼容的(字典中包含一系列偏移量,但这很好。)DPCM和一个量化器。@rici哦,我现在明白了,但这是该算法的一种事后思考。它不能实现ASCII的任何压缩。公平地说,我说“作为第一步”,这是最后一步是的,一定是继承人之一。还是不知道是哪一个…