Java链接提取Jsoup_Java_Html_Css_Web

Java链接提取Jsoup

java html css web

Java链接提取Jsoup,java,html,css,web,Java,Html,Css,Web,我正在解析一个网页：，在每个新闻列表的底部有一个按钮，用于加载更多新闻文章。当我按下它时，URL会变成这样，它会在列表中加载更多的链接（文章），我的问题是我有下面的代码，即使我给它新的链接（加载了更多的链接），它也不会识别新加载的链接，它只打印在按下“加载更多”按钮之前可用的链接，这是我的密码： Document doc = Jsoup.connect("http://www.dn.se/nyhetsdygnet/#getMoreArticles/2016-05-09/120").timeout

我正在解析一个网页：，在每个新闻列表的底部有一个按钮，用于加载更多新闻文章。当我按下它时，URL会变成这样，它会在列表中加载更多的链接（文章），我的问题是我有下面的代码，即使我给它新的链接（加载了更多的链接），它也不会识别新加载的链接，它只打印在按下“加载更多”按钮之前可用的链接，这是我的密码：

Document doc = Jsoup.connect("http://www.dn.se/nyhetsdygnet/#getMoreArticles/2016-05-09/120").timeout(100000).userAgent(" Mozilla//5.0 (Windows NT 6.1; WOW64) AppleWebKit//537.36 (KHTML, like Gecko) Chrome//49.0.2623.110 Safari//537.36").get();;
       Elements s = doc.select("#container-20160509 > ul > li a");


       for(Element e : s)
       {
           System.out.println(e);
       }

我不知道该网站为什么或如何在Url中使用“/40”和“/120”等，但我只是粘贴了和ttp://www.dn.se/nyhetsdygnet/#getMoreArticles/2016-05-09/120分为两个浏览器选项卡，并在两个选项卡中获得完全相同的页面（即相同的项目列表）。既然如此，不幸的是，这是所有图书馆都能给你的。编辑：Ooops no-抱歉-我被上一个“5月12日”列表愚弄了。啊哈，不用担心，问题是jsoup或我的代码无法识别新加载的链接：/I我强烈怀疑页面最初加载的是基本数量的链接（这就是你的代码得到的），然后启动一些javascript检查url，然后使用ajax加载额外的数据。但是，我还不能证实这个怀疑。我做了“curl>x40”，并且/80和/120都返回了完全相同的文件。我不认为Jsoup是个问题。是的，这和我一样，这是我试图解决的问题：///我不知道网站为什么或如何在Url中使用“/40”和“/120”等，但我只是粘贴了和ttp://www.dn.se/nyhetsdygnet/#getMoreArticles/2016-05-09/120分为两个浏览器选项卡，得到完全相同的页面（即，相同的项目列表）在这两种情况下，不幸的是，这是所有图书馆都会给你的。编辑：Ooops no-道歉-我被上一个“5月12日”的内容愚弄了aha不用担心，问题是jsoup或我的代码无法识别新加载的链接：/I我强烈怀疑页面最初加载的是基本数量的链接（因此代码就是这样得到的），然后启动一些检查url的javascript，然后使用ajax加载额外的。不过，还不能确认这种怀疑。我做了“curl>x40”，并且/80和/120都返回了完全相同的文件。我认为Jsoup不是问题。是的，我也是这样，这就是我试图解决的问题：///