如何在无限滚动中加载所有条目（延迟加载）以解析Java中的HTML_Java_Html_Web Crawler_Jsoup

如何在无限滚动中加载所有条目（延迟加载）以解析Java中的HTML

java html web-crawler

如何在无限滚动中加载所有条目（延迟加载）以解析Java中的HTML,java,html,web-crawler,jsoup,Java,Html,Web Crawler,Jsoup,我有一个问题，当使用Jsoup抓取一个使用延迟加载的网站时，Jsoup无法访问足够的我需要的内容。有什么办法可以解决吗我正在使用selenium和FirefoxDriver来获取，但这还不够 System.setProperty（“webdriver.gecko.driver”，“C:\\Users\\ADMIN\\Downloads\\Compressed\\geckodriver.exe”）； DesiredCapabilities=DesiredCapabilities.firefox（

我有一个问题，当使用Jsoup抓取一个使用延迟加载的网站时，Jsoup无法访问足够的我需要的内容。有什么办法可以解决吗

我正在使用selenium和FirefoxDriver来获取，但这还不够

System.setProperty（“webdriver.gecko.driver”，“C:\\Users\\ADMIN\\Downloads\\Compressed\\geckodriver.exe”）；
DesiredCapabilities=DesiredCapabilities.firefox（）；
能力。设置能力（“木偶”，真）；
WebDriver=newfirefoxdriver（）；
获取（URL）；

大多数情况下，您使用的“延迟加载”这一短语听起来像是站点正在向服务器进行AJAX调用，以检索显示在浏览器中的内容。我已经做了很多网页解析——但实际上执行Java脚本（像浏览器一样，以本机方式）并不是我可以用代码做的事情。我读了很多关于硒的书，但我没有用过

您的评论部分中的一条评论询问了您正在抓取的网站的URL。。。如果要手动查看页面HTML，可能需要识别正在调用的Java脚本方法的名称，然后使用这些方法（在Java中）调用服务器并自己获取内容

事实上，从我所读到的内容来看，SeleniumWebDriver应该使用“无头浏览器”自动执行（在DOM上本机执行Java脚本）。但是我通过查找JavaScript方法名称，制作了一个两行Java程序来调用服务器本身，然后自己解析HTML或JSON来做我需要做的任何事情，从而获取了许多网站的内容…

你有没有任何错误？我没有错误，但结果还不够，因为我需要知道URL会很好。