Python 多线程爬虫,每个线程有不同的代理,对吗?
我将编写一个多线程爬虫程序,计划在大约10万页上运行,为了加快速度,我需要同时获取大约10个不同的页面 每个爬虫线程将使用不同的代理并将结果推送到一个队列,在另一端,我将有更多的工作人员从队列中获取结果,解析并将其插入数据库 这是正确的方法吗?在队列中保存太多结果是否会有问题?我应该担心锁吗?(使用队列模块)。 哪个HTTP库最适合我的需要?(httplib2/urllib2) 创建每个线程时,我应该将请求对象的新实例传递给每个线程,还是应该移动请求对象并在线程中使用其“getPage”函数 谢谢。试试图书馆()就是这样 下面是一个页面,介绍如何设置代理中间件以使用多个代理:Python 多线程爬虫,每个线程有不同的代理,对吗?,python,urllib2,web-crawler,httplib2,Python,Urllib2,Web Crawler,Httplib2,我将编写一个多线程爬虫程序,计划在大约10万页上运行,为了加快速度,我需要同时获取大约10个不同的页面 每个爬虫线程将使用不同的代理并将结果推送到一个队列,在另一端,我将有更多的工作人员从队列中获取结果,解析并将其插入数据库 这是正确的方法吗?在队列中保存太多结果是否会有问题?我应该担心锁吗?(使用队列模块)。 哪个HTTP库最适合我的需要?(httplib2/urllib2) 创建每个线程时,我应该将请求对象的新实例传递给每个线程,还是应该移动请求对象并在线程中使用其“getPage”函数 谢