List 什么';如果您有n个列表,那么查找哪些字符串列表相似的最有效方法是什么?

List 什么';如果您有n个列表,那么查找哪些字符串列表相似的最有效方法是什么?,list,comparison,overlap,List,Comparison,Overlap,假设我有10个无序列表,每个列表中有100个字符串元素。找出哪些列表与另一个或多个列表有高度重叠(例如50%+)以及它们与哪些列表重叠的最快方法是什么 如果我们将其扩展到100000000个无序列表,每个列表包含10000个字符串,会怎么样?识别这些列表最有效的方法是什么?这是一个缓慢的操作。 您将从所有列表中创建一个集合。 然后将一个与所有其他进行比较,在哈希表或soemthing中保留一定的分数, 然后继续下一步,再做一次。 它的速度非常慢,而且不能很好地扩展,但是根据您正在寻找的领域,可能

假设我有10个无序列表,每个列表中有100个字符串元素。找出哪些列表与另一个或多个列表有高度重叠(例如50%+)以及它们与哪些列表重叠的最快方法是什么

如果我们将其扩展到100000000个无序列表,每个列表包含10000个字符串,会怎么样?识别这些列表最有效的方法是什么?

这是一个缓慢的操作。 您将从所有列表中创建一个集合。 然后将一个与所有其他进行比较,在哈希表或soemthing中保留一定的分数, 然后继续下一步,再做一次。 它的速度非常慢,而且不能很好地扩展,但是根据您正在寻找的领域,可能会有专门为该操作定制的算法(和数据结构)。 例如模糊搜索和字符串匹配。
你的问题太宽泛了。你想具体做什么?

如果你想找到两个文档之间的相似之处,你应该看看。你能给我们提供一些样品清单或文件以及所需的输出吗

那很有帮助,谢谢!这也是我朋友问我的一个抽象问题,所以我这里没有任何真实的数据,这是有道理的。我主要想知道是否有可能以比二次时间更快的方式进行这种比较。我同意这个问题很广泛,但那是因为这是我朋友问我的一个抽象问题。我没有一套具体的文档要分析。谢谢