elasticsearch,duplicate-removal,web-crawler,Indexing,Nutch,elasticsearch,Duplicate Removal,Web Crawler" /> elasticsearch,duplicate-removal,web-crawler,Indexing,Nutch,elasticsearch,Duplicate Removal,Web Crawler" />

Indexing 使用nutch时重复->;弹性搜索解

Indexing 使用nutch时重复->;弹性搜索解,indexing,nutch,elasticsearch,duplicate-removal,web-crawler,Indexing,Nutch,elasticsearch,Duplicate Removal,Web Crawler,我用nutch抓取了一些数据,并设法将其注入elasticsearch。但我有一个问题:如果我再次注入爬网数据,它将创建重复的数据。有什么办法不允许这样做吗 有没有人设法解决这个问题,或者对如何解决这个问题有什么建议 /Samus一种方法是,您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引,并在尝试将数据发送到elasticSearch之前交叉引用这些数据。 或者,您可以运行“更像这样”的查询来查看类似的文档,并根据这些文档做出决策 链接-一种方法是,您可以在某些数据

我用nutch抓取了一些数据,并设法将其注入elasticsearch。但我有一个问题:如果我再次注入爬网数据,它将创建重复的数据。有什么办法不允许这样做吗

有没有人设法解决这个问题,或者对如何解决这个问题有什么建议


/Samus

一种方法是,您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引,并在尝试将数据发送到elasticSearch之前交叉引用这些数据。 或者,您可以运行“更像这样”的查询来查看类似的文档,并根据这些文档做出决策


链接-

一种方法是,您可以在某些数据库中保留输入elasticSearch的所有数据的校验和索引,并在尝试向elasticSearch发送数据之前交叉引用这些数据。 或者,您可以运行“更像这样”的查询来查看类似的文档,并根据这些文档做出决策


链接-

如果在ElasticSearch中为每个使用相同id爬网的页面/文档编制索引,则不会复制它。您可以使用校验和/哈希函数将页面的URL转换为不同的ID

您还可以使用“操作类型”来确保,如果该id已编制索引,则不应重新编制索引:

索引操作还接受可用于强制执行的op_类型 一个创建操作,允许“不存在时放置”行为。创建时 如果使用该id,则索引操作将失败 已存在于索引中


如果在ElasticSearch中使用相同id对每个爬网页面/文档编制索引,则不会复制该页面/文档。您可以使用校验和/哈希函数将页面的URL转换为不同的ID

您还可以使用“操作类型”来确保,如果该id已编制索引,则不应重新编制索引:

索引操作还接受可用于强制执行的op_类型 一个创建操作,允许“不存在时放置”行为。创建时 如果使用该id,则索引操作将失败 已存在于索引中