Python 如何分配网络垃圾工作负载_Python_Selenium_Beautifulsoup_Virtual Machine

Python 如何分配网络垃圾工作负载

python selenium virtual-machine

Python 如何分配网络垃圾工作负载,python,selenium,beautifulsoup,virtual-machine,Python,Selenium,Beautifulsoup,Virtual Machine,我有一个庞大的webscraping项目（第1部分是将300k+单独的数据条目刮入一个网站）。我将来可能需要做更多的工作，一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点，并使用BeautifulSoup解析结果。我已经看过Selenium网格，但我不相信它会达到我想要的效果，因为我并没有试图让每个实例都执行相同的功能我希望将这些~300k个单独的数据条目拆分为搜索，例如，一次搜索8个以上现在（在Python中）我唯一的选择是设置几个VM并在每个VM中执行Python

我有一个庞大的webscraping项目（第1部分是将300k+单独的数据条目刮入一个网站）。我将来可能需要做更多的工作，一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点，并使用BeautifulSoup解析结果。我已经看过Selenium网格，但我不相信它会达到我想要的效果，因为我并没有试图让每个实例都执行相同的功能

我希望将这些~300k个单独的数据条目拆分为搜索，例如，一次搜索8个以上

现在（在Python中）我唯一的选择是设置几个VM并在每个VM中执行Python脚本吗？目前完成刮取的时间约为30小时。

Selenium的资源非常紧张。为什么不试试请求或urllib2呢？也许你是对的。url保持不变，页面内的内容使用javascript获取。硒是非常有效的，它只是似乎是最推荐的选择之一。我还是个编程新手，所以我可能做了一个糟糕的决定。