Web crawler Heritrix Crawl是确定性的吗？_Web Crawler_Heritrix

Web crawler Heritrix Crawl是确定性的吗？

web-crawler

Web crawler Heritrix Crawl是确定性的吗？,web-crawler,heritrix,Web Crawler,Heritrix,假设有一个网站abc.com，我们抓取abc.com的100页，如下所示第1天：通过将maxDocumentsToDownload指定为100，在heritrix中创建爬网作业第2天：在heritrix中克隆上述作业并运行若网站在两天内并没有改变，我会得到相同的100页还是不同的100页如果需要更多信息，请告诉我谢谢， Hareesh在第二天克隆作业后，除非网站（网页）更新，否则它将基本上下载相同的页面集。另一方面，在运行作业时，Heritrix会尽力避免对同一页进行两次爬网。因为a

假设有一个网站abc.com，我们抓取abc.com的100页，如下所示

第1天：通过将maxDocumentsToDownload指定为100，在heritrix中创建爬网作业第2天：在heritrix中克隆上述作业并运行

若网站在两天内并没有改变，我会得到相同的100页还是不同的100页

如果需要更多信息，请告诉我

谢谢，

Hareesh

在第二天克隆作业后，除非网站（网页）更新，否则它将基本上下载相同的页面集。

另一方面，在运行作业时，Heritrix会尽力避免对同一页进行两次爬网。因为abc.com和abc.com/index可能指向同一个webp

Hi Girish，谢谢您的回复。这是否在Herittrix文档中的某个地方记录了，如果网站不改变的话，抓取的页面集不会有任何区别？不，只是根据我所能说的观察结果。