Web scraping 使用Jsoup在使用函数而不是url的网页中导航

Web scraping 使用Jsoup在使用函数而不是url的网页中导航,web-scraping,jsoup,Web Scraping,Jsoup,12129页 Jsoup是一个HTML解析器,而不是浏览器。尽管如此,在点击菜单选项后,仍然可以查看url中返回的内容 如果它是可预测的,您可以将所需的参数附加到URL以使用Jsoup抓取。如果没有,您将不得不使用Selenium之类的工具循环浏览菜单,然后使用Jsoup解析每个页面 您还可以尝试在浏览器中禁用Javascript,以查看网站如何处理它。它可以带你去一个不使用js的导航台。值得一试。我曾尝试使用selenium对网站进行爬网,但速度非常慢。selenium大部分


12129页

  • Jsoup是一个HTML解析器,而不是浏览器。尽管如此,在点击菜单选项后,仍然可以查看url中返回的内容

    如果它是可预测的,您可以将所需的参数附加到URL以使用Jsoup抓取。如果没有,您将不得不使用Selenium之类的工具循环浏览菜单,然后使用Jsoup解析每个页面


    您还可以尝试在浏览器中禁用Javascript,以查看网站如何处理它。它可以带你去一个不使用js的导航台。值得一试。

    我曾尝试使用selenium对网站进行爬网,但速度非常慢。selenium大部分时间都用于单击按钮。我用了将近5个小时来抓取这12000页。你还推荐其他软件吗?我从未使用过HTMLUnit,但从我所读到的来看,它似乎更轻巧、更快。您可以在这里阅读相关内容,或者对其进行测试,看看此解决方案是否能更好地满足您的需求-