Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/296.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用simhash检测几乎重复的文档_Python_Duplicates_Simhash - Fatal编程技术网

Python 使用simhash检测几乎重复的文档

Python 使用simhash检测几乎重复的文档,python,duplicates,simhash,Python,Duplicates,Simhash,我在中找到了这个python项目,但是当我试图从我的目的出发使用它来检测几乎重复的文档时,例如json,我没有从README.md文件中获得足够的信息来说明如何做?它只显示为计算 import simhash a = simhash.compute(...) b = simhash.compute(...) simhash.num_differing_bits(a, b) 和如何使用 import simhash hashes = [] blocks = 4 distance = 3 ma

我在中找到了这个python项目,但是当我试图从我的目的出发使用它来检测几乎重复的文档时,例如json,我没有从README.md文件中获得足够的信息来说明如何做?它只显示为计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)
如何使用

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)
我迄今为止的尝试:克隆此回购后,我安装了所有要求,但当我尝试运行
setup.py
bench.py
时,它会显示出来

ImportError:没有名为simhash.simhash的模块

这个项目很棒,但我遇到了这个困难,因为README.md文件对如何创建文档哈希?如何传递哈希?如何检测近重复项?的描述不是很好。所以我需要关于如何对文档进行哈希的帮助?有谁能帮助我如何使用python使用这个simhash实现几乎重复的文档检测,或者提供任何一个分步教程链接来实现这一点?顺便说一句,我已经看到了,但这并不包含实现它的全部步骤。

试试这个

pip install git+https://github.com/seomoz/simhash-py.git
另外,为了获得更多的描述,德莱科克在这期杂志上发表了文章。下面是链接