Java 如何使用jsoup抓取ajax加载的内容

Java 如何使用jsoup抓取ajax加载的内容,java,jsoup,scrape,Java,Jsoup,Scrape,我使用JSOUP进行抓取,直到ajax和javascript没有发挥它们的作用来显示网页内容为止,JSOUP工作得非常好 现在大家有什么线索了,在页面完全加载后,如何抓取那些通过ajax或JavaScript显示的内容 提前谢谢 您不能直接使用JSoup来完成。你需要一个无头浏览器,这是一个更复杂的事情。Firefox、Safari等都有无头版本。搜索“headless X”(其中X是您想要使用的浏览器引擎)应该会找到一些有用的项目。您可以使用headless浏览器作为搜索引擎 PhantomJ

我使用JSOUP进行抓取,直到ajax和javascript没有发挥它们的作用来显示网页内容为止,JSOUP工作得非常好

现在大家有什么线索了,在页面完全加载后,如何抓取那些通过ajax或JavaScript显示的内容


提前谢谢

您不能直接使用JSoup来完成。你需要一个无头浏览器,这是一个更复杂的事情。Firefox、Safari等都有无头版本。搜索“headless X”(其中X是您想要使用的浏览器引擎)应该会找到一些有用的项目。

您可以使用headless浏览器作为搜索引擎

PhantomJS是一个无头WebKit,可使用JavaScript API编写脚本。它具有对各种web标准的快速和本地支持:DOM处理、CSS选择器、JSON、画布和SVG

为了简化您的工作,您可以使用

CasperJS是PhatomJS的伴侣,PhatomJS带来了一个大大改进的API,以简化创建刮片和自动化工作流

这些工具在您必须抓取具有动态内容的网站时非常有用,例如,内容在Javascript中运行流程(有时包括ajax调用)后显示的网站

您可以在这里看到一个关于casper如何工作的示例:

谢谢您的快速回复。