Search 我正在建立一个搜索引擎。如何从搜索结果中删除重复项?

Search 我正在建立一个搜索引擎。如何从搜索结果中删除重复项?,search,Search,当我搜索某物时,我得到的内容具有相同的文本和标题。 当然,总会有一份原件(其他人从中抄袭) 如果您在搜索和爬网方面有专业知识,您建议我如何删除这些重复项?(以一种非常可行和高效的方式)听起来像是一个编程问题 如果您清楚这些页面的被盗和原始组件是什么,并且这些差异非常普遍,您可以编写一个过滤器来分离它们,然后这样做,对“被盗”内容进行散列,然后您应该能够比较散列以确定两个页面是否相同 我猜网页窃贼可能会进行一些进一步的代码混淆,包括更改空格,因此您可能希望在散列之前将html标准化,例如删除任何多

当我搜索某物时,我得到的内容具有相同的文本和标题。 当然,总会有一份原件(其他人从中抄袭)


如果您在搜索和爬网方面有专业知识,您建议我如何删除这些重复项?(以一种非常可行和高效的方式)

听起来像是一个编程问题

如果您清楚这些页面的被盗和原始组件是什么,并且这些差异非常普遍,您可以编写一个过滤器来分离它们,然后这样做,对“被盗”内容进行散列,然后您应该能够比较散列以确定两个页面是否相同

我猜网页窃贼可能会进行一些进一步的代码混淆,包括更改空格,因此您可能希望在散列之前将html标准化,例如删除任何多余的空格,使所有属性都使用引号等。


你试过查看网站的起始日期吗?在比较字串值以验证重复后,将较早的一个列为白名单。

听起来像是superuser.com的问题。这是一个宽泛的话题;我会从使用搜索引擎开始,例如谷歌,然后查找:“搜索引擎”重复的网站:edu/