Web scraping Jaunt Webcrawler API没有';不能正确处理相对URL
我实现了一个爬虫程序,它可以执行以下操作:Web scraping Jaunt Webcrawler API没有';不能正确处理相对URL,web-scraping,web-crawler,jaunt-api,Web Scraping,Web Crawler,Jaunt Api,我实现了一个爬虫程序,它可以执行以下操作: repeat Visit each page and get all links that have not been visited. until no new links 它正在爬行的页面是 我得到的所有链接如下: <a href="produtos.php?id_sub=104&fruta-nacional" class="new_sub_menu"> Fr
repeat
Visit each page and get all links that have not been visited.
until no new links
它正在爬行的页面是
我得到的所有链接如下:
<a href="produtos.php?id_sub=104&fruta-nacional" class="new_sub_menu">
Fruta Nacional </a>
但当它访问子页面时,url连接错误:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes
可能是因为jaunt试图自动完成相对链接,将链接连接到url的末尾,而不是基页上
由于某些原因,创建的这些新链接是正确的,然后总是有新的链接要访问,这种情况会无限期地发生,并且这个过程永远不会结束
是否有解决此问题的方法?此错误与以“/”结尾的URL有关。当必须将相对绝对链接转换为这些文档时,它会误解自己 Jaunt API的1.1.3版中识别并修复了该漏洞:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes