Python 2.6:使用urllib2进行并行解析
我目前正在使用Python 2.6:使用urllib2进行并行解析,python,parsing,parallel-processing,urllib2,Python,Parsing,Parallel Processing,Urllib2,我目前正在使用urllib2从网站检索和解析页面。然而,它们中有很多(超过1000个),按顺序处理它们的速度非常慢 我希望有一种方法能够以并行方式检索和解析页面。如果这是个好主意,有可能吗?我该怎么做 另外,要并行处理的页面数的“合理”值是多少(我不想给服务器造成太大的压力,也不想因为使用了太多的连接而被禁止) 谢谢 您始终可以使用线程(即,在单独的线程中运行每个下载)。对于大量的数据,这可能有点太占用资源了,在这种情况下,我建议您查看一下,具体来说,这可能正是您所需要的 (来自gevent.o
urllib2
从网站检索和解析页面。然而,它们中有很多(超过1000个),按顺序处理它们的速度非常慢
我希望有一种方法能够以并行方式检索和解析页面。如果这是个好主意,有可能吗?我该怎么做
另外,要并行处理的页面数的“合理”值是多少(我不想给服务器造成太大的压力,也不想因为使用了太多的连接而被禁止)
谢谢 您始终可以使用线程(即,在单独的线程中运行每个下载)。对于大量的数据,这可能有点太占用资源了,在这种情况下,我建议您查看一下,具体来说,这可能正是您所需要的 (来自gevent.org:“gevent是一个基于协同程序的Python网络库,它使用greenlet在libevent循环之上提供高级同步API”)