Web crawler Heritrix Crawl是确定性的吗?

Web crawler Heritrix Crawl是确定性的吗?,web-crawler,heritrix,Web Crawler,Heritrix,假设有一个网站abc.com,我们抓取abc.com的100页,如下所示 第1天:通过将maxDocumentsToDownload指定为100,在heritrix中创建爬网作业 第2天:在heritrix中克隆上述作业并运行 若网站在两天内并没有改变,我会得到相同的100页还是不同的100页 如果需要更多信息,请告诉我 谢谢, Hareesh在第二天克隆作业后,除非网站(网页)更新,否则它将基本上下载相同的页面集。 另一方面,在运行作业时,Heritrix会尽力避免对同一页进行两次爬网。因为a

假设有一个网站abc.com,我们抓取abc.com的100页,如下所示

第1天:通过将maxDocumentsToDownload指定为100,在heritrix中创建爬网作业 第2天:在heritrix中克隆上述作业并运行

若网站在两天内并没有改变,我会得到相同的100页还是不同的100页

如果需要更多信息,请告诉我

谢谢,
Hareesh

在第二天克隆作业后,除非网站(网页)更新,否则它将基本上下载相同的页面集。
另一方面,在运行作业时,Heritrix会尽力避免对同一页进行两次爬网。因为abc.com和abc.com/index可能指向同一个webp

Hi Girish,谢谢您的回复。这是否在Herittrix文档中的某个地方记录了,如果网站不改变的话,抓取的页面集不会有任何区别?不,只是根据我所能说的观察结果。