Web scraping Jaunt Webcrawler API没有';不能正确处理相对URL

Web scraping Jaunt Webcrawler API没有';不能正确处理相对URL,web-scraping,web-crawler,jaunt-api,Web Scraping,Web Crawler,Jaunt Api,我实现了一个爬虫程序,它可以执行以下操作: repeat Visit each page and get all links that have not been visited. until no new links 它正在爬行的页面是 我得到的所有链接如下: <a href="produtos.php?id_sub=104&amp;fruta-nacional" class="new_sub_menu"> Fr

我实现了一个爬虫程序,它可以执行以下操作:

repeat
 Visit each page and get all links that have not been visited.
until no new links
它正在爬行的页面是

我得到的所有链接如下:

<a href="produtos.php?id_sub=104&amp;fruta-nacional" class="new_sub_menu">
                            Fruta Nacional                      </a>
但当它访问子页面时,url连接错误:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes
可能是因为jaunt试图自动完成相对链接,将链接连接到url的末尾,而不是基页上

由于某些原因,创建的这些新链接是正确的,然后总是有新的链接要访问,这种情况会无限期地发生,并且这个过程永远不会结束


是否有解决此问题的方法?

此错误与以“/”结尾的URL有关。当必须将相对绝对链接转换为这些文档时,它会误解自己

Jaunt API的1.1.3版中识别并修复了该漏洞:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes