Xml JSoup没有';无法检索网页上的链接
我正在用JSoup解析一个站点地图Xml JSoup没有';无法检索网页上的链接,xml,xml-parsing,jsoup,Xml,Xml Parsing,Jsoup,我正在用JSoup解析一个站点地图 Document dom = Jsoup.parse(new URL(pageRacine).openStream(), "UTF-8", "https://www.lavisducagou.nc/page-sitemap.xml"); Elements liens = dom.getElementsByTag("a"); System.out.println(liens.size() + " links have been retrieved"); 输出:
Document dom = Jsoup.parse(new URL(pageRacine).openStream(), "UTF-8", "https://www.lavisducagou.nc/page-sitemap.xml");
Elements liens = dom.getElementsByTag("a");
System.out.println(liens.size() + " links have been retrieved");
输出:
已检索到0个链接
我也尝试过这个,但不起作用:
Document dom = Jsoup.parse(String.valueOf(new URL("https://www.lavisducagou.nc/page-sitemap.xml").openStream()), "", Parser.xmlParser());
liens = dom.select("a");
有人能帮帮我吗?我疯了吗
编辑:
System.out.println(dom.body())代码>输出null
您不会得到任何链接,因为sitemap没有带有标记a的元素。站点地图中的URL位于标记loc
中。使用Elements-liens=dom.getElementsByTag(“loc”)代码>
您可能被浏览器中的内容弄错了。使用浏览器时,您会收到两个请求。一个用于下载sitemap.xml,另一个用于获取main-sitemap.xsl,其中包含有关浏览器如何显示xml文件的信息
Jsoup不会这样做。使用System.out.println(dom.html())
查看Jsoup下载的文档的外观
使用浏览器中的“网络”选项卡查看下载了哪些元素,以显示数据 在第二次尝试中,您得到了错误的响应,因为String.valueOf(新URL(“)不返回流的内容。