使用Ajax/JavaScript的Web爬虫_Javascript_Ajax_Web Crawler

使用Ajax/JavaScript的Web爬虫

javascript ajax web-crawler

使用Ajax/JavaScript的Web爬虫,javascript,ajax,web-crawler,Javascript,Ajax,Web Crawler,我曾尝试使用HtmlUnit实现一个爬虫程序，它可以获得通过执行Ajax请求和javascript执行生成的结果。但是，HtmlUnit功能不太强大，无法满足我的需求，因为它无法获得通过执行javascript或Ajax生成的所有呈现DOM元素。然后我还尝试使用PyWebKitTk和pyQtwebkit，它确实生成了一些动态DOM元素，但它们工作不稳定，我也不知道如何解决它。似乎有人也提到了使用selenium。有人能给我一些实现Ajax爬虫的建议吗？非常感谢可能是解决您问题的好办法。您还可以

我曾尝试使用HtmlUnit实现一个爬虫程序，它可以获得通过执行Ajax请求和javascript执行生成的结果。但是，HtmlUnit功能不太强大，无法满足我的需求，因为它无法获得通过执行javascript或Ajax生成的所有呈现DOM元素。然后我还尝试使用PyWebKitTk和pyQtwebkit，它确实生成了一些动态DOM元素，但它们工作不稳定，我也不知道如何解决它。似乎有人也提到了使用selenium。有人能给我一些实现Ajax爬虫的建议吗？非常感谢

可能是解决您问题的好办法。您还可以使用一些爬虫api，例如，来简化这个过程。希望它能工作。

一般来说，我的理解是，您需要JavaScript运行时来完成真正的浏览器所做的事情，比如Ajax请求和异步处理程序。我投票支持这种方式，因为它允许以脚本方式操作真正的浏览器，从而完美地覆盖了网络爬虫场景以及屏幕截图等附加功能。感谢您的回复。好的，我会试着用硒。希望它能起作用D