Selenium webdriver Scrapy、Selenium或Mechanize来刮取web数据?

Selenium webdriver Scrapy、Selenium或Mechanize来刮取web数据?,selenium-webdriver,web-scraping,scrapy,mechanize,Selenium Webdriver,Web Scraping,Scrapy,Mechanize,我想从网站上搜集一些数据 基本上,该网站有一些表格显示,显示了大约50条记录。要获得更多记录,用户必须单击某个按钮,该按钮使ajax调用获取并显示接下来的50条记录 我以前了解SeleniumWebDriver(Python)。我可以用Selenium很快做到这一点。但是,Selenium更像是一种自动化测试工具,而且速度非常慢 我做了一些研发,发现使用Scrapy或Mechanize,我也可以做同样的事情 为此,我应该选择Scrapy、Mechanize还是Selenium?我建议您使用Mec

我想从网站上搜集一些数据

基本上,该网站有一些表格显示,显示了大约50条记录。要获得更多记录,用户必须单击某个按钮,该按钮使ajax调用获取并显示接下来的50条记录

我以前了解SeleniumWebDriver(Python)。我可以用Selenium很快做到这一点。但是,Selenium更像是一种自动化测试工具,而且速度非常慢

我做了一些研发,发现使用Scrapy或Mechanize,我也可以做同样的事情


为此,我应该选择Scrapy、Mechanize还是Selenium?

我建议您使用Mechanize和ExecJS()的组合来执行您可能遇到的任何javascript请求。我已经将这两颗宝石组合使用了很长一段时间,它们做得很好


你应该选择这个而不是Selenium,因为它比在无头浏览器中呈现整个页面要快得多。

我肯定会选择Scrapy。如果无法处理javascript,可以尝试使用Scrapy+splash。 据我所知,Scrapy是目前为止最快的网络抓取工具。
祝你好运

你真的在寻求意见。这不是这个网站的主要目的。关于这些选项,你有什么特别的问题吗?我真的很困惑,因为我不知道另外两种技术。用javascript抓取网站会变得非常棘手。Scrapy提供了比Mechanize更好的功能,用于大规模web爬网和解析,但在这两种情况下,要想抓取像您这样的网站,您必须对网站的功能进行反向工程(触发按钮的请求是什么、参数是什么、cookie、负载等)您可能会发现,使用
webdriver.PhantomJS
作为驱动程序比使用
webdriver.Firefox
作为驱动程序要快得多