Algorithm 是否实施了”中所述的理念；检测用于Web爬网的近重复项”；_Algorithm_Duplicates_Similarity

Algorithm 是否实施了”中所述的理念；检测用于Web爬网的近重复项”；

algorithm

Algorithm 是否实施了”中所述的理念；检测用于Web爬网的近重复项”；,algorithm,duplicates,similarity,Algorithm,Duplicates,Similarity,该文件：我只是想知道那篇论文第三章有没有实现。我的意思是在大型数据集之间进行查询，而不仅仅是simhash（很容易找到simhash实现）谢谢~虽然我还没有测试过它的工作原理，但这里有一个。好消息是它是开源的这是数据挖掘和相似性搜索中的一个问题。有许多文章描述了如何做到这一点，以及如何扩展到海量数据我有一个的实现（，在我的中有一些关于它的评论）。这要求您所做的度量满足三角形不等式（.A）即从项目A到项目C的度量距离小于或等于距离A到B+距离B到C 考虑到这种不平等性，可以修剪搜索空间，因

该文件：

我只是想知道那篇论文第三章有没有实现。我的意思是在大型数据集之间进行查询，而不仅仅是simhash（很容易找到simhash实现）

谢谢~

虽然我还没有测试过它的工作原理，但这里有一个。好消息是它是开源的

这是

数据挖掘

和

相似性搜索

中的一个问题。有许多文章描述了如何做到这一点，以及如何扩展到海量数据

我有一个的实现（，在我的中有一些关于它的评论）。这要求您所做的度量满足三角形不等式（.A）即从项目A到项目C的度量距离小于或等于距离A到B+距离B到C

考虑到这种不平等性，可以修剪搜索空间，因此只搜索可能与目标区域重叠的子树。如果该特征不成立（度量空间）

simhash中的差异位数可能是一个度量空间

文档中提到mapReduce时提到了这些数据集的一般用法，mapReduce通常运行在

hadoop集群上。

为每个处理节点提供了一个子集数据，并从其本地数据集中找到一组目标匹配项。然后将这些数据集组合起来，以提供类似项的完全有序列表。

有一些论文（不确定参考文献）这暗指在集群中使用m-树，其中搜索空间的不同部分被赋予不同的集群，但我不确定hadoop基础结构是否支持使用这样的高级抽象。

我已经找到了这一点。我的意思是，我正在寻找该论文第3章的实现。但仍然感谢~在最后提出这个问题，你可能会免费得到一个250字节的perl实现。这是一个笑话。