Selenium webdriver Scrapy、Selenium或Mechanize来刮取web数据？_Selenium Webdriver_Web Scraping_Scrapy_Mechanize

Selenium webdriver Scrapy、Selenium或Mechanize来刮取web数据？

selenium-webdriver web-scraping scrapy

Selenium webdriver Scrapy、Selenium或Mechanize来刮取web数据？,selenium-webdriver,web-scraping,scrapy,mechanize,Selenium Webdriver,Web Scraping,Scrapy,Mechanize,我想从网站上搜集一些数据基本上，该网站有一些表格显示，显示了大约50条记录。要获得更多记录，用户必须单击某个按钮，该按钮使ajax调用获取并显示接下来的50条记录我以前了解SeleniumWebDriver（Python）。我可以用Selenium很快做到这一点。但是，Selenium更像是一种自动化测试工具，而且速度非常慢我做了一些研发，发现使用Scrapy或Mechanize，我也可以做同样的事情为此，我应该选择Scrapy、Mechanize还是Selenium？我建议您使用Mec

我想从网站上搜集一些数据

基本上，该网站有一些表格显示，显示了大约50条记录。要获得更多记录，用户必须单击某个按钮，该按钮使ajax调用获取并显示接下来的50条记录

我以前了解SeleniumWebDriver（Python）。我可以用Selenium很快做到这一点。但是，Selenium更像是一种自动化测试工具，而且速度非常慢

我做了一些研发，发现使用Scrapy或Mechanize，我也可以做同样的事情

为此，我应该选择Scrapy、Mechanize还是Selenium？

我建议您使用Mechanize和ExecJS（）的组合来执行您可能遇到的任何javascript请求。我已经将这两颗宝石组合使用了很长一段时间，它们做得很好

你应该选择这个而不是Selenium，因为它比在无头浏览器中呈现整个页面要快得多。

我肯定会选择Scrapy。如果无法处理javascript，可以尝试使用Scrapy+splash。据我所知，Scrapy是目前为止最快的网络抓取工具。

祝你好运

你真的在寻求意见。这不是这个网站的主要目的。关于这些选项，你有什么特别的问题吗？我真的很困惑，因为我不知道另外两种技术。用javascript抓取网站会变得非常棘手。Scrapy提供了比Mechanize更好的功能，用于大规模web爬网和解析，但在这两种情况下，要想抓取像您这样的网站，您必须对网站的功能进行反向工程（触发按钮的请求是什么、参数是什么、cookie、负载等）您可能会发现，使用

webdriver.PhantomJS

作为驱动程序比使用

webdriver.Firefox

作为驱动程序要快得多