Compression 以良好的拼写和规范的哈夫曼代码压缩文本

Compression 以良好的拼写和规范的哈夫曼代码压缩文本,compression,prefix,huffman-code,prefix-tree,Compression,Prefix,Huffman Code,Prefix Tree,我想用文字作为符号而不是字符来压缩文本,我真的不知道这是否是个好主意,但我只是想测试一下(为了科学) 问题是,我无法真正存储英语中的所有单词,因此我收集了一个非常常见的单词列表(大约1600个单词),我计划对其进行更改,就像拼写检查程序存储派生形式的单词一样。(示例:kill、kill-ing、kill-er、kill-s,取决于它是动词、形容词等) 我想知道这个哈夫曼编码的特殊版本是否适合我的需要,因为“字典”不会经常更改,可以通过解压缩工具分发。在创建原始的哈夫曼树时,我似乎还必须口述单词

我想用文字作为符号而不是字符来压缩文本,我真的不知道这是否是个好主意,但我只是想测试一下(为了科学)

问题是,我无法真正存储英语中的所有单词,因此我收集了一个非常常见的单词列表(大约1600个单词),我计划对其进行更改,就像拼写检查程序存储派生形式的单词一样。(示例:kill、kill-ing、kill-er、kill-s,取决于它是动词、形容词等)

我想知道这个哈夫曼编码的特殊版本是否适合我的需要,因为“字典”不会经常更改,可以通过解压缩工具分发。在创建原始的哈夫曼树时,我似乎还必须口述单词的频率,然后才能将其转换为规范的哈夫曼树


如果我在这里遗漏了一点,或者这是一个好主意还是一个坏主意,你能纠正我吗?

这里要注意的一点是,这种特殊变体的优点是只有更小的码本,而不是压缩数据。因此,在需要包含哈夫曼码本和数据的任何地方使用它,前提是替换的片段是连续的。 因为单词自然可以按顺序排序——你可以,因此你应该——使用规范的哈夫曼代码