Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/410.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ember.js/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Selenium jSoup从Javascript网页获取数据_Java_Javascript_Selenium_Jsoup_Api_Curl_Wget_Httpbuilder_Http_Rest - Fatal编程技术网

Selenium jSoup从Javascript网页获取数据

Selenium jSoup从Javascript网页获取数据,java,javascript,selenium,jsoup,api,curl,wget,httpbuilder,http,rest,Java,Javascript,Selenium,Jsoup,Api,Curl,Wget,Httpbuilder,Http,Rest,最近我问了一些关于这方面的问题,但还没有真正找到我想要的 我正试图把所有的比赛都打印出来,包括时间、主队和客队。我知道内容是在页面打开后加载的 我被告知使用Selenium,然后对结果使用jSoup来获得我想要的数据。有没有人可以在上面的网站上向我展示如何做的教程或示例代码 任何示例都将不胜感激,谢谢如果您要对某人的网站进行刮取/数据挖掘,请注意以下几点: 获得网站所有者的许可如果你不这样做,最好的情况下你会激怒店主并被列入黑名单,最坏的情况下你会被起诉 找出该站点是否公开了一个错误。这始终是刮

最近我问了一些关于这方面的问题,但还没有真正找到我想要的

我正试图把所有的比赛都打印出来,包括时间、主队和客队。我知道内容是在页面打开后加载的

我被告知使用Selenium,然后对结果使用jSoup来获得我想要的数据。有没有人可以在上面的网站上向我展示如何做的教程或示例代码


任何示例都将不胜感激,谢谢

如果您要对某人的网站进行刮取/数据挖掘,请注意以下几点:

  • 获得网站所有者的许可如果你不这样做,最好的情况下你会激怒店主并被列入黑名单,最坏的情况下你会被起诉
  • 找出该站点是否公开了一个错误。这始终是刮取站点的更好方法
  • 更适合此任务的研究工具/库。其中一些包括。。。。。根据您的舒适度/知识水平,您可能需要研究底层技术:
  • 是一个用于浏览器应用程序的功能测试库,这使得它对于此任务来说是一个糟糕的选择

  • PS:我完全期待这次会议被否决/结束,因为讨论/意见都很重要。

    这对我来说很有用:

    System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe");
    WebDriver driver = new ChromeDriver();
    driver.get(url);
    Document doc = Jsoup.parse(driver.getPageSource());
    // Jsoup code here to parse/scrape data
    driver.close();
    driver.quit();
    

    要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题对于堆栈溢出来说是离题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,请描述这个问题以及迄今为止为解决它所做的工作。我不是在要求上述任何一项。。。我想为我提到的特定场景提供一个示例?我只做了研究,没有编写任何代码。似乎找不到我需要的方法-所以想知道以前是否有人做过类似的事情。。。