Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 是否实施了”中所述的理念;检测用于Web爬网的近重复项”;_Algorithm_Duplicates_Similarity - Fatal编程技术网

Algorithm 是否实施了”中所述的理念;检测用于Web爬网的近重复项”;

Algorithm 是否实施了”中所述的理念;检测用于Web爬网的近重复项”;,algorithm,duplicates,similarity,Algorithm,Duplicates,Similarity,该文件: 我只是想知道那篇论文第三章有没有实现。我的意思是在大型数据集之间进行查询,而不仅仅是simhash(很容易找到simhash实现) 谢谢~虽然我还没有测试过它的工作原理,但这里有一个。好消息是它是开源的 这是数据挖掘和相似性搜索中的一个问题。有许多文章描述了如何做到这一点,以及如何扩展到海量数据 我有一个的实现(,在我的中有一些关于它的评论)。这要求您所做的度量满足三角形不等式(.A)即从项目A到项目C的度量距离小于或等于距离A到B+距离B到C 考虑到这种不平等性,可以修剪搜索空间,因

该文件:

我只是想知道那篇论文第三章有没有实现。我的意思是在大型数据集之间进行查询,而不仅仅是simhash(很容易找到simhash实现)


谢谢~

虽然我还没有测试过它的工作原理,但这里有一个。好消息是它是开源的

这是
数据挖掘
相似性搜索
中的一个问题。有许多文章描述了如何做到这一点,以及如何扩展到海量数据

我有一个的实现(,在我的中有一些关于它的评论)。这要求您所做的度量满足三角形不等式(.A)即从项目A到项目C的度量距离小于或等于距离A到B+距离B到C

考虑到这种不平等性,可以修剪搜索空间,因此只搜索可能与目标区域重叠的子树。如果该特征不成立(度量空间)

simhash中的差异位数可能是一个度量空间

文档中提到mapReduce时提到了这些数据集的一般用法,mapReduce通常运行在
hadoop集群上。
为每个处理节点提供了一个子集数据,并从其本地数据集中找到一组目标匹配项。然后将这些数据集组合起来,以提供类似项的完全有序列表。


有一些论文(不确定参考文献)这暗指在集群中使用m-树,其中搜索空间的不同部分被赋予不同的集群,但我不确定hadoop基础结构是否支持使用这样的高级抽象。

我已经找到了这一点。我的意思是,我正在寻找该论文第3章的实现。但仍然感谢~在最后提出这个问题,你可能会免费得到一个250字节的perl实现。这是一个笑话。