Indexing 使用nutch时重复->；弹性搜索解_Indexing_Nutch_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Duplicate Removal_Web Crawler

Indexing 使用nutch时重复->；弹性搜索解

indexing web-crawler

Indexing 使用nutch时重复->；弹性搜索解,indexing,nutch,elasticsearch,duplicate-removal,web-crawler,Indexing,Nutch,elasticsearch,Duplicate Removal,Web Crawler,我用nutch抓取了一些数据，并设法将其注入elasticsearch。但我有一个问题：如果我再次注入爬网数据，它将创建重复的数据。有什么办法不允许这样做吗有没有人设法解决这个问题，或者对如何解决这个问题有什么建议 /Samus一种方法是，您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引，并在尝试将数据发送到elasticSearch之前交叉引用这些数据。或者，您可以运行“更像这样”的查询来查看类似的文档，并根据这些文档做出决策链接-一种方法是，您可以在某些数据

我用nutch抓取了一些数据，并设法将其注入elasticsearch。但我有一个问题：如果我再次注入爬网数据，它将创建重复的数据。有什么办法不允许这样做吗

有没有人设法解决这个问题，或者对如何解决这个问题有什么建议

/Samus

一种方法是，您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引，并在尝试将数据发送到elasticSearch之前交叉引用这些数据。或者，您可以运行“更像这样”的查询来查看类似的文档，并根据这些文档做出决策

链接-

一种方法是，您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引，并在尝试向elasticSearch发送数据之前交叉引用这些数据。或者，您可以运行“更像这样”的查询来查看类似的文档，并根据这些文档做出决策

链接-

如果在ElasticSearch中为每个使用相同id爬网的页面/文档编制索引，则不会复制它。您可以使用校验和/哈希函数将页面的URL转换为不同的ID

您还可以使用“操作类型”来确保，如果该id已编制索引，则不应重新编制索引：

索引操作还接受可用于强制执行的op_类型一个创建操作，允许“不存在时放置”行为。创建时如果使用该id，则索引操作将失败已存在于索引中

如果在ElasticSearch中使用相同id对每个爬网页面/文档编制索引，则不会复制该页面/文档。您可以使用校验和/哈希函数将页面的URL转换为不同的ID

您还可以使用“操作类型”来确保，如果该id已编制索引，则不应重新编制索引：

索引操作还接受可用于强制执行的op_类型一个创建操作，允许“不存在时放置”行为。创建时如果使用该id，则索引操作将失败已存在于索引中