Java 在基于XML加载HTML的地方刮取网站数据
我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要刮取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来Java 在基于XML加载HTML的地方刮取网站数据,java,web-scraping,jsoup,Java,Web Scraping,Jsoup,我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要刮取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来 <div id="report-details-container"> <!-- Container where HTML template will be loaded based on XML --> </div> 它不显示完整的HTML,只显示此注释 因为在ins
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
它不显示完整的HTML,只显示此注释
因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢
因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢
您无法从HTML中删除原始XML。XML不在HTML中
然而:
- 您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则(例如,您有XSLT文件),并且转换不会有损失
- 如果从XML到HTML的转换是使用(比如)XSLT的客户端执行完成的,那么您应该能够在应用转换之前捕获XML
- 可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身
但是,如果您所拥有的只是一条HTML注释,就像您向我们展示的那样,那么您首先需要对加载XML的过程进行反向工程。这可能是通过一些客户端脚本完成的 因为在inspect元素中我可以看到完整的HTML,所以我如何刮取这些数据呢 您无法从HTML中删除原始XML。XML不在HTML中 然而:
- 您可以对原始XML进行反向工程。。。前提是您知道从XML到HTML的转换规则(例如,您有XSLT文件),并且转换不会有损失
- 如果从XML到HTML的转换是使用(比如)XSLT的客户端执行完成的,那么您应该能够在应用转换之前捕获XML
- 可能有一种方法可以让服务器发送XML而不是HTML。这将取决于服务器本身
但是,如果您所拥有的只是一条HTML注释,就像您向我们展示的那样,那么您首先需要对加载XML的过程进行反向工程。这可能是通过一些客户端脚本完成的