Compression 为什么不';我们不使用字串压缩吗?

Compression 为什么不';我们不使用字串压缩吗?,compression,Compression,我有三个主要问题: 假设我有一个大的文本文件(1)用单词的秩替换单词是压缩文件的有效方法吗?(得到了这个问题的答案。这是个坏主意。) 此外,我还提出了一种新的压缩算法。我阅读了一些广泛使用的现有压缩模型,发现它们使用了一些非常先进的概念,如统计冗余和概率预测。我的算法没有使用所有这些概念,而是一组非常简单的规则,在压缩和解压缩时需要遵循这些规则(2)我的问题是,在没有足够的现有压缩方案知识的情况下,我是否在浪费时间尝试提出新的压缩算法? (3)此外,如果我成功压缩了字符串,我可以将算法扩展到其他

我有三个主要问题:

假设我有一个大的文本文件(1)用单词的秩替换单词是压缩文件的有效方法吗?(得到了这个问题的答案。这是个坏主意。)

此外,我还提出了一种新的压缩算法。我阅读了一些广泛使用的现有压缩模型,发现它们使用了一些非常先进的概念,如统计冗余和概率预测。我的算法没有使用所有这些概念,而是一组非常简单的规则,在压缩和解压缩时需要遵循这些规则(2)我的问题是,在没有足够的现有压缩方案知识的情况下,我是否在浪费时间尝试提出新的压缩算法?

(3)此外,如果我成功压缩了字符串,我可以将算法扩展到其他内容,如视频、图像等吗?


(我知道第三个问题在不了解压缩算法的情况下很难回答。但我担心该算法太初级和幼稚,我为分享它感到羞耻。如果有必要,请忽略第三个问题)

你的意思是说,像是拥有一个按频率排序的单词排名表,并为那些重复次数最多的单词分配较小的“符号”,从而减少需要传输的信息量


这基本上就是工作原理,压缩的问题是你总是碰到a,当然,如果你试图压缩的东西集遵循a,那么它可能真的很有效,但是对于一般用途(音频/视频/文本/加密数据,看起来是随机的),没有(我相信不可能有)“最佳”压缩技术。

哈夫曼编码使用字母的频率。您可以对单词或更多维度的字母频率(即字母及其频率的组合)执行相同的操作

  • 你的问题没有意义(见答案2),但我会尝试重新措辞,如果我抓住了你的问题,你可以让我知道。使用单个单词的概率对文本进行建模是否有助于实现良好的文本压缩算法?回答:不。这将是一个零阶模型,并且不能利用高阶相关性,例如给定单词在前一个单词后面的条件概率。查找匹配字符串和不同字符概率的简单现有文本压缩器的性能会更好

  • 是的,在没有足够的现有压缩方案知识的情况下,尝试提出新的压缩算法是在浪费时间。您应该首先了解随着时间推移应用于建模数据、文本数据和其他数据的技术,以及使用建模信息压缩数据的方法。在开发新方法之前,您需要研究已经研究了几十年的内容

  • 压缩部分可以扩展,但建模部分不会


  • 你到底想做什么,而不是使用现有的压缩技术?以计算能力为代价实现更好的压缩比…因为计算能力每天都在变得更便宜,但网络速度仍然有些停滞。不是按频率排序。我是说字母排名。e、 g.
    a
    一词排名第一。单词
    z
    排名26。单词
    ab
    排名28,以此类推。@ritratt那么你是在建议一种算术编码,假设字母的分布是均匀的?那不是很有效…@JanDvorak你说得对。我刚刚意识到这就像使用一个以26为基数的数字系统。存储任何单词将占用与字母或数字相同的空间。所以我的第一个问题得到了回答!你没听清楚我的第一个问题,但没关系。我还是找到了答案。