String 这两个词有多相似

String 这两个词有多相似,string,algorithm,String,Algorithm,是否有比“Levenshtein距离”算法更精确的算法?? 还有,它增加了对字符转换的支持,并为常见的打字错误提供了更多的覆盖范围 要获取列文施泰因或达梅劳·列文施泰因的相似性百分比,请执行以下操作: int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested 或者,您可能希望查看作为相似性度量的 接下来是 这是语音匹配算法 > 史米斯< /代码>及其德国对应符施密特>代

是否有比“Levenshtein距离”算法更精确的算法??

还有,它增加了对字符转换的支持,并为常见的打字错误提供了更多的覆盖范围

要获取列文施泰因达梅劳·列文施泰因的相似性百分比,请执行以下操作:

int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested
或者,您可能希望查看作为相似性度量的

接下来是

这是语音匹配算法

<> > <代码>史米斯< /代码>及其德国对应符<代码>施密特>代码>使用编辑距离(A.K.LevsHeTin)会出现很大不同,SoNexx和MyOne会认为它们在语音上是相似的,甚至是等价的。


但是如果您不告诉我们纯Levenshtein距离的错误,很难猜出更好的算法。

有一种算法,它增加了对字符换位的支持,并为常见的打字错误提供了更多的覆盖范围

要获取列文施泰因达梅劳·列文施泰因的相似性百分比,请执行以下操作:

int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested
或者,您可能希望查看作为相似性度量的

接下来是

这是语音匹配算法

<> > <代码>史米斯< /代码>及其德国对应符<代码>施密特>代码>使用编辑距离(A.K.LevsHeTin)会出现很大不同,SoNexx和MyOne会认为它们在语音上是相似的,甚至是等价的。



但是如果你不告诉我们纯距离的错误,很难猜出更好的算法。

这取决于你如何定义准确度。为什么Levenshtein不适合你?你想要什么相似性的概念?在不知道您想要什么的情况下,就不可能提出其他措施。@DanielFischer Levenshtein用短词返回不好的结果
例如,我正在搜索一个文件,查找与给定词类似的词
,我检查了文件中每个词的算法,如果它返回的int小于3,则表示相似,它适用于大词,但对于小词,当我搜索单词“一”时,它不会。类似的词是“核心、行、打开、移动、长、代码”。就编辑距离而言,所有短词都非常相似,没有办法绕过它。按照Regexident建议的长度进行缩放可能会得到令人满意的结果,否则你需要找到一个明确的相似性规范。这取决于你如何定义准确性。为什么Levenshtein不适合你?你想要什么相似性概念?在不知道您想要什么的情况下,就不可能提出其他措施。@DanielFischer Levenshtein用短词返回不好的结果
例如,我正在搜索一个文件,查找与给定词类似的词
,我检查了文件中每个词的算法,如果它返回的int小于3,则表示相似,它适用于大词,但对于小词,当我搜索单词“一”时,它不会。类似的词是“核心、行、打开、移动、长、代码”。就编辑距离而言,所有短词都非常相似,没有办法绕过它。按照Regexident建议的长度缩放可能会得到令人满意的结果,否则您需要找到所需相似性的明确说明。Damerau–Levenshtein距离比(经典)距离更精确Levenshtein
Levenshtein返回排序错误的结果words@AymanJitan:Damerau Levenshtein也不是真正的文本度量(因为它不满足三角形不等式),例如,在BKTrees的情况下,这可能是一件相当糟糕的事情。如果你不给我们提供更多关于常见算法错误的信息,就不可能提供有用的建议。“相似”可能意味着任何东西:字长、字型、语音、语义……Damerau–Levenshtein距离比(经典的)Levenshtein
Levenshtein返回的排序结果更准确words@AymanJitan:Damerau Levenshtein也不是真文本度量(因为它不满足三角形不等式),例如,对于树木来说,这可能是一件相当糟糕的事情。如果你不给我们提供更多关于常见算法错误的信息,就不可能提供有用的建议。“相似”可能意味着任何东西:字长、字型、语音、语义…