Java 在基于XML加载HTML的地方刮取网站数据_Java_Web Scraping_Jsoup

Java 在基于XML加载HTML的地方刮取网站数据

java web-scraping

Java 在基于XML加载HTML的地方刮取网站数据,java,web-scraping,jsoup,Java,Web Scraping,Jsoup,我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而，这里的问题是，我想要刮取的数据是基于XML加载的，所以当我试图从HTML解析它时，它会显示出来 <div id="report-details-container">  </div> 它不显示完整的HTML，只显示此注释因为在ins

我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而，这里的问题是，我想要刮取的数据是基于XML加载的，所以当我试图从HTML解析它时，它会显示出来

<div id="report-details-container"> 
   <!-- Container where HTML template will be loaded based on XML --> 
</div>

它不显示完整的HTML，只显示此注释

因为在inspect元素中我可以看到完整的HTML，所以我如何刮取这些数据呢

您无法从HTML中删除原始XML。XML不在HTML中

然而：

您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则（例如，您有XSLT文件），并且转换不会有损失
如果从XML到HTML的转换是使用（比如）XSLT的客户端执行完成的，那么您应该能够在应用转换之前捕获XML
可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身

但是，如果您所拥有的只是一条HTML注释，就像您向我们展示的那样，那么您首先需要对加载XML的过程进行反向工程。这可能是通过一些客户端脚本完成的

因为在inspect元素中我可以看到完整的HTML，所以我如何刮取这些数据呢

您无法从HTML中删除原始XML。XML不在HTML中

然而：

您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则（例如，您有XSLT文件），并且转换不会有损失
如果从XML到HTML的转换是使用（比如）XSLT的客户端执行完成的，那么您应该能够在应用转换之前捕获XML
可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身