Python 使用simhash检测几乎重复的文档_Python_Duplicates_Simhash

Python 使用simhash检测几乎重复的文档

python

Python 使用simhash检测几乎重复的文档,python,duplicates,simhash,Python,Duplicates,Simhash,我在中找到了这个python项目，但是当我试图从我的目的出发使用它来检测几乎重复的文档时，例如json，我没有从README.md文件中获得足够的信息来说明如何做？它只显示为计算 import simhash a = simhash.compute(...) b = simhash.compute(...) simhash.num_differing_bits(a, b) 和如何使用 import simhash hashes = [] blocks = 4 distance = 3 ma

我在中找到了这个python项目，但是当我试图从我的目的出发使用它来检测几乎重复的文档时，例如json，我没有从README.md文件中获得足够的信息来说明如何做？它只显示为计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

和如何使用

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

我迄今为止的尝试：克隆此回购后，我安装了所有要求，但当我尝试运行

setup.py

或

bench.py

时，它会显示出来

ImportError:没有名为simhash.simhash的模块

这个项目很棒，但我遇到了这个困难，因为README.md文件对如何创建文档哈希？，如何传递哈希？和如何检测近重复项？的描述不是很好。所以我需要关于如何对文档进行哈希的帮助？有谁能帮助我如何使用python使用这个simhash实现几乎重复的文档检测，或者提供任何一个分步教程链接来实现这一点？顺便说一句，我已经看到了，但这并不包含实现它的全部步骤。

试试这个

pip install git+https://github.com/seomoz/simhash-py.git

另外，为了获得更多的描述，德莱科克在这期杂志上发表了文章。下面是链接