Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/372.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在无限滚动中加载所有条目(延迟加载)以解析Java中的HTML_Java_Html_Web Crawler_Jsoup - Fatal编程技术网

如何在无限滚动中加载所有条目(延迟加载)以解析Java中的HTML

如何在无限滚动中加载所有条目(延迟加载)以解析Java中的HTML,java,html,web-crawler,jsoup,Java,Html,Web Crawler,Jsoup,我有一个问题,当使用Jsoup抓取一个使用延迟加载的网站时,Jsoup无法访问足够的我需要的内容。有什么办法可以解决吗 我正在使用selenium和FirefoxDriver来获取,但这还不够 System.setProperty(“webdriver.gecko.driver”,“C:\\Users\\ADMIN\\Downloads\\Compressed\\geckodriver.exe”); DesiredCapabilities=DesiredCapabilities.firefox(

我有一个问题,当使用Jsoup抓取一个使用延迟加载的网站时,Jsoup无法访问足够的我需要的内容。有什么办法可以解决吗

我正在使用selenium和FirefoxDriver来获取,但这还不够

System.setProperty(“webdriver.gecko.driver”,“C:\\Users\\ADMIN\\Downloads\\Compressed\\geckodriver.exe”);
DesiredCapabilities=DesiredCapabilities.firefox();
能力。设置能力(“木偶”,真);
WebDriver=newfirefoxdriver();
获取(URL);

大多数情况下,您使用的“延迟加载”这一短语听起来像是站点正在向服务器进行AJAX调用,以检索显示在浏览器中的内容。我已经做了很多网页解析——但实际上执行Java脚本(像浏览器一样,以本机方式)并不是我可以用代码做的事情。我读了很多关于硒的书,但我没有用过

您的评论部分中的一条评论询问了您正在抓取的网站的URL。。。如果要手动查看页面HTML,可能需要识别正在调用的Java脚本方法的名称,然后使用这些方法(在Java中)调用服务器并自己获取内容


事实上,从我所读到的内容来看,SeleniumWebDriver应该使用“无头浏览器”自动执行(在DOM上本机执行Java脚本)。但是我通过查找JavaScript方法名称,制作了一个两行Java程序来调用服务器本身,然后自己解析HTML或JSON来做我需要做的任何事情,从而获取了许多网站的内容…

你有没有任何错误?我没有错误,但结果还不够,因为我需要知道URL会很好。