Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/date/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Ajax/JavaScript的Web爬虫_Javascript_Ajax_Web Crawler - Fatal编程技术网

使用Ajax/JavaScript的Web爬虫

使用Ajax/JavaScript的Web爬虫,javascript,ajax,web-crawler,Javascript,Ajax,Web Crawler,我曾尝试使用HtmlUnit实现一个爬虫程序,它可以获得通过执行Ajax请求和javascript执行生成的结果。但是,HtmlUnit功能不太强大,无法满足我的需求,因为它无法获得通过执行javascript或Ajax生成的所有呈现DOM元素。然后我还尝试使用PyWebKitTk和pyQtwebkit,它确实生成了一些动态DOM元素,但它们工作不稳定,我也不知道如何解决它。似乎有人也提到了使用selenium。有人能给我一些实现Ajax爬虫的建议吗?非常感谢 可能是解决您问题的好办法。您还可以

我曾尝试使用HtmlUnit实现一个爬虫程序,它可以获得通过执行Ajax请求和javascript执行生成的结果。但是,HtmlUnit功能不太强大,无法满足我的需求,因为它无法获得通过执行javascript或Ajax生成的所有呈现DOM元素。然后我还尝试使用PyWebKitTk和pyQtwebkit,它确实生成了一些动态DOM元素,但它们工作不稳定,我也不知道如何解决它。似乎有人也提到了使用selenium。有人能给我一些实现Ajax爬虫的建议吗?非常感谢

可能是解决您问题的好办法。您还可以使用一些爬虫api,例如,来简化这个过程。希望它能工作。

一般来说,我的理解是,您需要JavaScript运行时来完成真正的浏览器所做的事情,比如Ajax请求和异步处理程序。我投票支持这种方式,因为它允许以脚本方式操作真正的浏览器,从而完美地覆盖了网络爬虫场景以及屏幕截图等附加功能。感谢您的回复。好的,我会试着用硒。希望它能起作用D