Algorithm 建立最优字典算法

Algorithm 建立最优字典算法,algorithm,dictionary,Algorithm,Dictionary,所以我有一个ASCII格式的大纯文本脚本,它可以有256个字典条目。字典可以包含任何长度为3-6个字母的字符串。每个条目在脚本中占用2个字节(而不是适当的字典字符串长度) 对于为这样的方案构建最佳词典,我考虑了很多。简单的解决方案是在每个位置构建任意6个字母的子字符串,然后对每个子字符串进行计数并找到最频繁的子字符串。然后从初始脚本中排除此子字符串,并重复搜索第二个最频繁条目的最频繁项。 所有这些看起来都很难看,我相信,这项任务背后已经有了严肃的数学基础,但我在任何地方都找不到任何关于这方面的参

所以我有一个ASCII格式的大纯文本脚本,它可以有256个字典条目。字典可以包含任何长度为3-6个字母的字符串。每个条目在脚本中占用2个字节(而不是适当的字典字符串长度)

对于为这样的方案构建最佳词典,我考虑了很多。简单的解决方案是在每个位置构建任意6个字母的子字符串,然后对每个子字符串进行计数并找到最频繁的子字符串。然后从初始脚本中排除此子字符串,并重复搜索第二个最频繁条目的最频繁项。
所有这些看起来都很难看,我相信,这项任务背后已经有了严肃的数学基础,但我在任何地方都找不到任何关于这方面的参考资料。
您能给我指点一下或描述一下上述任务可能的算法吗?

我要找的是MTE代码生成算法。例如,它是在两个工具中实现的(内部也有C代码)


背后的想法是一种野蛮的力量:正如我所描述的。重要的是,当您找到可能的最佳代码时,您还需要计算实际的MTE代码长度,并只考虑保存的长度减去MTE代码长度,这将被考虑。

我所寻找的是MTE代码构建算法。例如,它是在两个工具中实现的(内部也有C代码)


背后的想法是一种野蛮的力量:正如我所描述的。重要的是,当您找到可能的最佳代码时,您还需要计算实际的MTE代码长度,并只考虑保存的长度减去MTE代码长度,这将被考虑。

这?不。哈夫曼编码通过分析文本中的频率来应用于每字符编码。在我的例子中,我只想分析文本中所有子字符串的频率,并找到最频繁的子字符串。可能的字符串数量有限(256个)。将这些字符串作为字符进行威胁。这意味着,你将有256个字符的字母表。是的,但我怎样才能建立一个字母表呢?我应该如何发现A是一个具体的子串“香蕉”?这听起来像是压缩,这是一个有着几十年价值的方法和算法的巨大领域。不,哈夫曼编码通过分析每字符在文本中的频率来应用于每字符编码。在我的例子中,我只想分析文本中所有子字符串的频率,并找到最频繁的子字符串。可能的字符串数量有限(256个)。将这些字符串作为字符进行威胁。这意味着,你将有256个字符的字母表。是的,但我怎样才能建立一个字母表呢?我应该如何发现A是一个具体的子串“香蕉”?这听起来像是压缩,这是一个有着几十年价值的方法和算法的巨大领域。