Algorithm 计算文本B中有多少文本A的算法?

Algorithm 计算文本B中有多少文本A的算法?,algorithm,text,language-agnostic,text-comparison,Algorithm,Text,Language Agnostic,Text Comparison,我需要计算一块文本(a)中有多少在另一块文本(B)中。像soundex这样的简单算法并不能为我提供很好的结果,因为文本B中有额外的文本,而这些文本不在/不应该在文本A中,这会使我的数字失真。我需要确保a的某个百分比在B范围内,并忽略B的添加 我对一个简单算法的第一个想法是将a分成几个句子,记下句子的总数,然后搜索B每个句子的一个实例以提供百分比。虽然这应该可以工作,但它感觉相当粗糙,我相信比我更聪明的人已经设计了一种算法,可以根据类似的原理提供更好的计算。看起来最适合您的目的 尝试?有一个完整的

我需要计算一块文本(
a
)中有多少在另一块文本(
B
)中。像soundex这样的简单算法并不能为我提供很好的结果,因为文本
B
中有额外的文本,而这些文本不在/不应该在文本
A
中,这会使我的数字失真。我需要确保
a
的某个百分比在
B
范围内,并忽略
B
的添加


我对一个简单算法的第一个想法是将
a
分成几个句子,记下句子的总数,然后搜索
B
每个句子的一个实例以提供百分比。虽然这应该可以工作,但它感觉相当粗糙,我相信比我更聪明的人已经设计了一种算法,可以根据类似的原理提供更好的计算。

看起来最适合您的目的

尝试?有一个完整的分支在做这件事,它被称为位置敏感散列(Locality-Sensitive Hashing),这可能是一种过激的做法,但你可以从中获得一些想法。