Java 在基于XML加载HTML的地方刮取网站数据

Java 在基于XML加载HTML的地方刮取网站数据,java,web-scraping,jsoup,Java,Web Scraping,Jsoup,我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要刮取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来 <div id="report-details-container"> <!-- Container where HTML template will be loaded based on XML --> </div> 它不显示完整的HTML,只显示此注释 因为在ins

我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要刮取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来

<div id="report-details-container"> 
   <!-- Container where HTML template will be loaded based on XML --> 
</div>

它不显示完整的HTML,只显示此注释

因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢

因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢

您无法从HTML中删除原始XML。XML不在HTML中

然而:

  • 您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则(例如,您有XSLT文件),并且转换不会有损失

  • 如果从XML到HTML的转换是使用(比如)XSLT的客户端执行完成的,那么您应该能够在应用转换之前捕获XML

  • 可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身


但是,如果您所拥有的只是一条HTML注释,就像您向我们展示的那样,那么您首先需要对加载XML的过程进行反向工程。这可能是通过一些客户端脚本完成的

因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢

您无法从HTML中删除原始XML。XML不在HTML中

然而:

  • 您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则(例如,您有XSLT文件),并且转换不会有损失

  • 如果从XML到HTML的转换是使用(比如)XSLT的客户端执行完成的,那么您应该能够在应用转换之前捕获XML

  • 可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身


但是,如果您所拥有的只是一条HTML注释,就像您向我们展示的那样,那么您首先需要对加载XML的过程进行反向工程。这可能是通过一些客户端脚本完成的