Web scraping 如何从网站中提取源代码,如我们在inspect元素中看到的

Web scraping 如何从网站中提取源代码,如我们在inspect元素中看到的,web-scraping,jsoup,htmlunit,Web Scraping,Jsoup,Htmlunit,我想提取网站的完整html源代码,因为我们在chrome inspect元素上得到它 我正试图从中剔除论文的评论 最初我尝试使用java和Jsoup,但无法提取完整的html源代码 然后,正如中所建议的,我尝试使用HTML单元,但不幸的是,HTML单元也并没有像我预期的那个样提取 这个问题有什么解决办法吗?在Chrome中 在普通浏览器文档中:右键单击元素,从弹出菜单中选择“检查元素”。您将进入“开发人员工具”窗口 在开发者工具窗口中:右键单击HTML元素并从弹出菜单中选择“编辑为HTML” 在

我想提取网站的完整html源代码,因为我们在chrome inspect元素上得到它

我正试图从中剔除论文的评论

最初我尝试使用java和Jsoup,但无法提取完整的html源代码

然后,正如中所建议的,我尝试使用HTML单元,但不幸的是,HTML单元也并没有像我预期的那个样提取

这个问题有什么解决办法吗?

在Chrome中

  • 在普通浏览器文档中:右键单击元素,从弹出菜单中选择“检查元素”。您将进入“开发人员工具”窗口
  • 在开发者工具窗口中:右键单击HTML元素并从弹出菜单中选择“编辑为HTML”
  • 在编辑器中选择所有HTML文本(按CTRL-A)并复制到剪贴板(按CTRL-C)

  • 在浏览器中“将页面另存为”?是否有Java库可以这样做?@Nick.McDermaid即使在手动保存时,我也没有找到预期的内容,我是在google Chrome上完成的。我不知道为什么这会被否决。由于@Arun Kishore询问如何获取一个非常特定页面的html,您的解决方案效果很好,但否决票很可能是因为这是一项手动任务。它不能自动化。