Algorithm 如何对网页的整个内容进行哈希处理?

Algorithm 如何对网页的整个内容进行哈希处理?,algorithm,data-structures,hash,indexing,search-engine,Algorithm,Data Structures,Hash,Indexing,Search Engine,我有时听说,在信息检索、搜索引擎、爬虫等领域,我们可以通过散列页面内容来检测重复页面。什么样的散列函数能够散列整个网页(至少有两个寻呼机),从而使两个副本具有相同的散列输出值?。典型散列输出值的大小是多少 这样的散列函数是否能够将两个类似的网页放在同一个桶中 谢谢,我认为您正在寻找模糊散列,即只对文档的一部分而不是整个文档进行散列。任何散列函数,给定两个输入x和y s.t.x=y,根据定义,将为它们返回相同的值。但如果要正确执行此类重复检测,则需要: 一个加密性强的散列函数,如MD5、SHA-

我有时听说,在信息检索、搜索引擎、爬虫等领域,我们可以通过散列页面内容来检测重复页面。什么样的散列函数能够散列整个网页(至少有两个寻呼机),从而使两个副本具有相同的散列输出值?。典型散列输出值的大小是多少

这样的散列函数是否能够将两个类似的网页放在同一个桶中


谢谢,

我认为您正在寻找模糊散列,即只对文档的一部分而不是整个文档进行散列。

任何散列函数,给定两个输入x和y s.t.x=y,根据定义,将为它们返回相同的值。但如果要正确执行此类重复检测,则需要:

  • 一个加密性强的散列函数,如MD5、SHA-1或SHA-512,它实际上永远不会将两个不同的页面映射到同一个值,因此可以假定相等的散列值意味着相等的输入,或者
  • 如果要检测接近重复项,请选择
使用哪一种取决于你的需要;加密哈希在近重复检测中是无用的,因为它们被设计成将近重复映射到非常不同的值