Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/315.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何分配网络垃圾工作负载_Python_Selenium_Beautifulsoup_Virtual Machine - Fatal编程技术网

Python 如何分配网络垃圾工作负载

Python 如何分配网络垃圾工作负载,python,selenium,beautifulsoup,virtual-machine,Python,Selenium,Beautifulsoup,Virtual Machine,我有一个庞大的webscraping项目(第1部分是将300k+单独的数据条目刮入一个网站)。我将来可能需要做更多的工作,一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点,并使用BeautifulSoup解析结果。我已经看过Selenium网格,但我不相信它会达到我想要的效果,因为我并没有试图让每个实例都执行相同的功能 我希望将这些~300k个单独的数据条目拆分为搜索,例如,一次搜索8个以上 现在(在Python中)我唯一的选择是设置几个VM并在每个VM中执行Python

我有一个庞大的webscraping项目(第1部分是将300k+单独的数据条目刮入一个网站)。我将来可能需要做更多的工作,一次输入一个数据是不够的。我一直在使用Selenium将数据输入JS站点,并使用BeautifulSoup解析结果。我已经看过Selenium网格,但我不相信它会达到我想要的效果,因为我并没有试图让每个实例都执行相同的功能

我希望将这些~300k个单独的数据条目拆分为搜索,例如,一次搜索8个以上


现在(在Python中)我唯一的选择是设置几个VM并在每个VM中执行Python脚本吗?目前完成刮取的时间约为30小时。

Selenium的资源非常紧张。为什么不试试请求或urllib2呢?也许你是对的。url保持不变,页面内的内容使用javascript获取。硒是非常有效的,它只是似乎是最推荐的选择之一。我还是个编程新手,所以我可能做了一个糟糕的决定。