Python 使用simhash检测几乎重复的文档
我在中找到了这个python项目,但是当我试图从我的目的出发使用它来检测几乎重复的文档时,例如json,我没有从README.md文件中获得足够的信息来说明如何做?它只显示为计算Python 使用simhash检测几乎重复的文档,python,duplicates,simhash,Python,Duplicates,Simhash,我在中找到了这个python项目,但是当我试图从我的目的出发使用它来检测几乎重复的文档时,例如json,我没有从README.md文件中获得足够的信息来说明如何做?它只显示为计算 import simhash a = simhash.compute(...) b = simhash.compute(...) simhash.num_differing_bits(a, b) 和如何使用 import simhash hashes = [] blocks = 4 distance = 3 ma
import simhash
a = simhash.compute(...)
b = simhash.compute(...)
simhash.num_differing_bits(a, b)
和如何使用
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)
我迄今为止的尝试:克隆此回购后,我安装了所有要求,但当我尝试运行setup.py
或bench.py
时,它会显示出来
ImportError:没有名为simhash.simhash的模块
这个项目很棒,但我遇到了这个困难,因为README.md文件对如何创建文档哈希?,如何传递哈希?和如何检测近重复项?的描述不是很好。所以我需要关于如何对文档进行哈希的帮助?有谁能帮助我如何使用python使用这个simhash实现几乎重复的文档检测,或者提供任何一个分步教程链接来实现这一点?顺便说一句,我已经看到了,但这并不包含实现它的全部步骤。试试这个
pip install git+https://github.com/seomoz/simhash-py.git
另外,为了获得更多的描述,德莱科克在这期杂志上发表了文章。下面是链接