Algorithm 计算文本B中有多少文本A的算法？_Algorithm_Text_Language Agnostic_Text Comparison

Algorithm 计算文本B中有多少文本A的算法？

algorithm text language-agnostic

Algorithm 计算文本B中有多少文本A的算法？,algorithm,text,language-agnostic,text-comparison,Algorithm,Text,Language Agnostic,Text Comparison,我需要计算一块文本（a）中有多少在另一块文本（B）中。像soundex这样的简单算法并不能为我提供很好的结果，因为文本B中有额外的文本，而这些文本不在/不应该在文本A中，这会使我的数字失真。我需要确保a的某个百分比在B范围内，并忽略B的添加我对一个简单算法的第一个想法是将a分成几个句子，记下句子的总数，然后搜索B每个句子的一个实例以提供百分比。虽然这应该可以工作，但它感觉相当粗糙，我相信比我更聪明的人已经设计了一种算法，可以根据类似的原理提供更好的计算。看起来最适合您的目的尝试？有一个完整的

我需要计算一块文本（

）中有多少在另一块文本（

）中。像soundex这样的简单算法并不能为我提供很好的结果，因为文本

中有额外的文本，而这些文本不在/不应该在文本

中，这会使我的数字失真。我需要确保

的某个百分比在

范围内，并忽略

的添加

我对一个简单算法的第一个想法是将

分成几个句子，记下句子的总数，然后搜索

每个句子的一个实例以提供百分比。虽然这应该可以工作，但它感觉相当粗糙，我相信比我更聪明的人已经设计了一种算法，可以根据类似的原理提供更好的计算。

看起来最适合您的目的

尝试？有一个完整的分支在做这件事，它被称为位置敏感散列（Locality-Sensitive Hashing），这可能是一种过激的做法，但你可以从中获得一些想法。