用于基于ajax的网站的php爬虫?

用于基于ajax的网站的php爬虫?,php,ajax,web-crawler,Php,Ajax,Web Crawler,也许这听起来很幼稚,但是有没有什么东西可以远程接近基于ajax的网站的php爬虫呢?问题是,vanilla php不了解如何解析JavaScript、生成JavaScript环境以及如何与所有内容交互。为了从理论上做到这一点,您必须通过C API扩展PHP,并将其与JavaScript库接口。这个问题的规模很大,这取决于您拥有多少资源。不是自动爬虫程序,因为它们需要理解javascript代码并需要知道发生了什么 他们所能做的就是使用与支持ajax的脚本相同的调用,这样您就可以获取原始数据 但这

也许这听起来很幼稚,但是有没有什么东西可以远程接近基于ajax的网站的php爬虫呢?

问题是,vanilla php不了解如何解析JavaScript、生成JavaScript环境以及如何与所有内容交互。为了从理论上做到这一点,您必须通过C API扩展PHP,并将其与JavaScript库接口。这个问题的规模很大,这取决于您拥有多少资源。

不是自动爬虫程序,因为它们需要理解javascript代码并需要知道发生了什么

他们所能做的就是使用与支持ajax的脚本相同的调用,这样您就可以获取原始数据

但这意味着你需要对网页和它调用的url有很好的了解,这是相当劳动密集的


所以答案是:不,据我所知,它们不存在。

您可以使用phantomjs库来执行js


它不是PHP,所以我不提供它作为答案,但Java中的HTMLUnit是一个完全可编写脚本的无头浏览器组件,具有JS支持,也可以用作爬虫程序。