Web crawler 我应该配置什么来停止nutch重新索引或再次获取。对于url,它应该只索引一次

Web crawler 我应该配置什么来停止nutch重新索引或再次获取。对于url,它应该只索引一次,web-crawler,nutch,Web Crawler,Nutch,任何人都可以指向我正确的文档或黑客来阻止nutch重新索引或获取相同的内容。 我只想对给定的url爬网一次以下是nutch执行的过程: 获取种子URL 从该种子URL生成URL 创建链接数据库 仅获取Nutch新链接的内容,或者校验和已更改(即修改的URL) 它将获取内容并仅为那些新的或修改的链接解析内容 对于其他URL,它只生成URL并将其保存在链接数据库中 例如: 在第一次爬网中,Nutch从10个URL获取、生成和爬网内容 现在假设我的网站中添加了3个链接 在第二次获取/重新索引中,Nut

任何人都可以指向我正确的文档或黑客来阻止nutch重新索引或获取相同的内容。
我只想对给定的url爬网一次以下是nutch执行的过程:

  • 获取种子URL

  • 从该种子URL生成URL

  • 创建链接数据库

  • 仅获取Nutch新链接的内容,或者校验和已更改(即修改的URL)

  • 它将获取内容并仅为那些新的或修改的链接解析内容

  • 对于其他URL,它只生成URL并将其保存在链接数据库中

  • 例如:

  • 在第一次爬网中,Nutch从10个URL获取、生成和爬网内容

  • 现在假设我的网站中添加了3个链接

  • 在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但仅获取新添加的3个URL的内容,并获取内容并对其进行解析


  • 以下是nutch执行的流程:

  • 获取种子URL

  • 从该种子URL生成URL

  • 创建链接数据库

  • 仅获取Nutch新链接的内容,或者校验和已更改(即修改的URL)

  • 它将获取内容并仅为那些新的或修改的链接解析内容

  • 对于其他URL,它只生成URL并将其保存在链接数据库中

  • 例如:

  • 在第一次爬网中,Nutch从10个URL获取、生成和爬网内容

  • 现在假设我的网站中添加了3个链接

  • 在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但仅获取新添加的3个URL的内容,并获取内容并对其进行解析


  • 以下是nutch执行的流程:

  • 获取种子URL

  • 从该种子URL生成URL

  • 创建链接数据库

  • 仅获取Nutch新链接的内容,或者校验和已更改(即修改的URL)

  • 它将获取内容并仅为那些新的或修改的链接解析内容

  • 对于其他URL,它只生成URL并将其保存在链接数据库中

  • 例如:

  • 在第一次爬网中,Nutch从10个URL获取、生成和爬网内容

  • 现在假设我的网站中添加了3个链接

  • 在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但仅获取新添加的3个URL的内容,并获取内容并对其进行解析


  • 以下是nutch执行的流程:

  • 获取种子URL

  • 从该种子URL生成URL

  • 创建链接数据库

  • 仅获取Nutch新链接的内容,或者校验和已更改(即修改的URL)

  • 它将获取内容并仅为那些新的或修改的链接解析内容

  • 对于其他URL,它只生成URL并将其保存在链接数据库中

  • 例如:

  • 在第一次爬网中,Nutch从10个URL获取、生成和爬网内容

  • 现在假设我的网站中添加了3个链接

  • 在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但仅获取新添加的3个URL的内容,并获取内容并对其进行解析


  • 嗨,图西夫,你问题中的每一个不好的细节都提供给了任何人来回答你的问题。。。1) 您正在执行哪些命令来索引文档?2) 你为什么说nutch会重新索引或获取相同的内容?@Jayeshbhoyer每个爬虫都会重新提取和索引内容,这很常见。现在我要问的是我如何避免重提。你们不认为谷歌访问网站是为了获取新鲜的内容吗?嗨,图西夫,你们问题中提供的每一个糟糕的细节都让任何人来回答你们的问题。。。1) 您正在执行哪些命令来索引文档?2) 你为什么说nutch会重新索引或获取相同的内容?@Jayeshbhoyer每个爬虫都会重新提取和索引内容,这很常见。现在我要问的是我如何避免重提。你们不认为谷歌访问网站是为了获取新鲜的内容吗?嗨,图西夫,你们问题中提供的每一个糟糕的细节都让任何人来回答你们的问题。。。1) 您正在执行哪些命令来索引文档?2) 你为什么说nutch会重新索引或获取相同的内容?@Jayeshbhoyer每个爬虫都会重新提取和索引内容,这很常见。现在我要问的是我如何避免重提。你们不认为谷歌访问网站是为了获取新鲜的内容吗?嗨,图西夫,你们问题中提供的每一个糟糕的细节都让任何人来回答你们的问题。。。1) 您正在执行哪些命令来索引文档?2) 你为什么说nutch会重新索引或获取相同的内容?@Jayeshbhoyer每个爬虫都会重新提取和索引内容,这很常见。现在我要问的是我如何避免重提。你们不认为谷歌访问网站是为了获取新鲜内容吗?谢谢你们的回复。谢谢你们的回复。谢谢你们的回复。谢谢你们的回复。谢谢你们的回复。