Python 如何分配网络垃圾工作负载
我有一个庞大的webscraping项目(第1部分是将300k+单独的数据条目刮入一个网站)。我将来可能需要做更多的工作,一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点,并使用BeautifulSoup解析结果。我已经看过Selenium网格,但我不相信它会达到我想要的效果,因为我并没有试图让每个实例都执行相同的功能 我希望将这些~300k个单独的数据条目拆分为搜索,例如,一次搜索8个以上Python 如何分配网络垃圾工作负载,python,selenium,beautifulsoup,virtual-machine,Python,Selenium,Beautifulsoup,Virtual Machine,我有一个庞大的webscraping项目(第1部分是将300k+单独的数据条目刮入一个网站)。我将来可能需要做更多的工作,一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点,并使用BeautifulSoup解析结果。我已经看过Selenium网格,但我不相信它会达到我想要的效果,因为我并没有试图让每个实例都执行相同的功能 我希望将这些~300k个单独的数据条目拆分为搜索,例如,一次搜索8个以上 现在(在Python中)我唯一的选择是设置几个VM并在每个VM中执行Python
现在(在Python中)我唯一的选择是设置几个VM并在每个VM中执行Python脚本吗?目前完成刮取的时间约为30小时。Selenium的资源非常紧张。为什么不试试请求或urllib2呢?也许你是对的。url保持不变,页面内的内容使用javascript获取。硒是非常有效的,它只是似乎是最推荐的选择之一。我还是个编程新手,所以我可能做了一个糟糕的决定。