Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 多线程爬虫,每个线程有不同的代理,对吗?_Python_Urllib2_Web Crawler_Httplib2 - Fatal编程技术网

Python 多线程爬虫,每个线程有不同的代理,对吗?

Python 多线程爬虫,每个线程有不同的代理,对吗?,python,urllib2,web-crawler,httplib2,Python,Urllib2,Web Crawler,Httplib2,我将编写一个多线程爬虫程序,计划在大约10万页上运行,为了加快速度,我需要同时获取大约10个不同的页面 每个爬虫线程将使用不同的代理并将结果推送到一个队列,在另一端,我将有更多的工作人员从队列中获取结果,解析并将其插入数据库 这是正确的方法吗?在队列中保存太多结果是否会有问题?我应该担心锁吗?(使用队列模块)。 哪个HTTP库最适合我的需要?(httplib2/urllib2) 创建每个线程时,我应该将请求对象的新实例传递给每个线程,还是应该移动请求对象并在线程中使用其“getPage”函数 谢

我将编写一个多线程爬虫程序,计划在大约10万页上运行,为了加快速度,我需要同时获取大约10个不同的页面

每个爬虫线程将使用不同的代理并将结果推送到一个队列,在另一端,我将有更多的工作人员从队列中获取结果,解析并将其插入数据库

这是正确的方法吗?在队列中保存太多结果是否会有问题?我应该担心锁吗?(使用队列模块)。 哪个HTTP库最适合我的需要?(httplib2/urllib2)

创建每个线程时,我应该将请求对象的新实例传递给每个线程,还是应该移动请求对象并在线程中使用其“getPage”函数

谢谢。

试试图书馆()

就是这样

下面是一个页面,介绍如何设置代理中间件以使用多个代理: