Python-动态收缩线程池/停止线程
我正在编写一个小型多线程http文件下载程序,希望能够在代码遇到错误时收缩可用线程 这些错误将特定于在web服务器不允许任何更多连接的情况下返回的http错误 如果我设置了一个由5个线程组成的池,那么每个线程都试图打开自己的连接并下载一块文件。服务器可能只允许2个连接,我相信会返回503个错误,我想检测到这一点并关闭一个线程,最终将池的大小限制为服务器允许的2个 我能让线自动停止吗 self.Thread_stop()是否足够 我还需要加入()吗 这是我的worker类,它进行下载,从队列中抓取数据进行处理,下载后将结果转储到resultQ中,由主线程保存到文件中 在这里,我想检测http 503并从可用池中停止/杀死/删除一个线程——当然,还要将失败的块重新添加回队列,以便其余线程将处理它Python-动态收缩线程池/停止线程,python,threadpool,Python,Threadpool,我正在编写一个小型多线程http文件下载程序,希望能够在代码遇到错误时收缩可用线程 这些错误将特定于在web服务器不允许任何更多连接的情况下返回的http错误 如果我设置了一个由5个线程组成的池,那么每个线程都试图打开自己的连接并下载一块文件。服务器可能只允许2个连接,我相信会返回503个错误,我想检测到这一点并关闭一个线程,最终将池的大小限制为服务器允许的2个 我能让线自动停止吗 self.Thread_stop()是否足够 我还需要加入()吗 这是我的worker类,它进行下载,从队列中抓取
class Downloader(threading.Thread):
def __init__(self, queue, resultQ, file_name):
threading.Thread.__init__(self)
self.workQ = queue
self.resultQ = resultQ
self.file_name = file_name
def run(self):
while True:
block_num, url, start, length = self.workQ.get()
print 'Starting Queue #: %s' % block_num
print start
print length
#Download the file
self.download_file(url, start, length)
#Tell queue that this task is done
print 'Queue #: %s finished' % block_num
self.workQ.task_done()
def download_file(self, url, start, length):
request = urllib2.Request(url, None, headers)
if length == 0:
return None
request.add_header('Range', 'bytes=%d-%d' % (start, start + length))
while 1:
try:
data = urllib2.urlopen(request)
except urllib2.URLError, u:
print "Connection did not start with", u
else:
break
chunk = ''
block_size = 1024
remaining_blocks = length
while remaining_blocks > 0:
if remaining_blocks >= block_size:
fetch_size = block_size
else:
fetch_size = int(remaining_blocks)
try:
data_block = data.read(fetch_size)
if len(data_block) == 0:
print "Connection: [TESTING]: 0 sized block" + \
" fetched."
if len(data_block) != fetch_size:
print "Connection: len(data_block) != length" + \
", but continuing anyway."
self.run()
return
except socket.timeout, s:
print "Connection timed out with", s
self.run()
return
remaining_blocks -= fetch_size
chunk += data_block
resultQ.put([start, chunk])
下面是我初始化线程池的地方,接下来我将项目放入队列
# create a thread pool and give them a queue
for i in range(num_threads):
t = Downloader(workQ, resultQ, file_name)
t.setDaemon(True)
t.start()
Thread对象通过从run方法返回来终止线程——它不调用stop。如果将线程设置为守护程序模式,则不需要加入,但主线程需要加入。线程通常使用resultq报告它正在退出,而主线程则使用该信息进行连接。这有助于有序地终止流程。如果python仍在处理多个线程,那么在系统退出过程中可能会出现奇怪的错误,最好避开这一步。您应该使用线程池来控制线程的生命周期:
import threadpool
def process_tasks():
pool = threadpool.ThreadPool(4)
requests = threadpool.makeRequests(download_file, arguments)
for req in requests:
pool.putRequest(req)
#wait for them to finish (or you could go and do something else)
pool.wait()
if __name__ == '__main__':
process_tasks()
其中参数
取决于您的策略。要么给线程一个队列作为参数,然后清空队列。或者,您可以在process_任务中获取process队列,在池已满时阻塞,并在线程完成但队列不为空时打开新线程。这完全取决于您的需求和下载程序的上下文
资源:
self.\u Thread\u stop()
。退出线程的run()
方法就足够了(您可以检查标志或从队列中读取哨兵值以知道何时退出)
在这里,我想检测http 503并从可用池中停止/杀死/删除一个线程——当然,还要将失败的块重新添加回队列,以便其余线程将处理它
class Downloader(threading.Thread):
def __init__(self, queue, resultQ, file_name):
threading.Thread.__init__(self)
self.workQ = queue
self.resultQ = resultQ
self.file_name = file_name
def run(self):
while True:
block_num, url, start, length = self.workQ.get()
print 'Starting Queue #: %s' % block_num
print start
print length
#Download the file
self.download_file(url, start, length)
#Tell queue that this task is done
print 'Queue #: %s finished' % block_num
self.workQ.task_done()
def download_file(self, url, start, length):
request = urllib2.Request(url, None, headers)
if length == 0:
return None
request.add_header('Range', 'bytes=%d-%d' % (start, start + length))
while 1:
try:
data = urllib2.urlopen(request)
except urllib2.URLError, u:
print "Connection did not start with", u
else:
break
chunk = ''
block_size = 1024
remaining_blocks = length
while remaining_blocks > 0:
if remaining_blocks >= block_size:
fetch_size = block_size
else:
fetch_size = int(remaining_blocks)
try:
data_block = data.read(fetch_size)
if len(data_block) == 0:
print "Connection: [TESTING]: 0 sized block" + \
" fetched."
if len(data_block) != fetch_size:
print "Connection: len(data_block) != length" + \
", but continuing anyway."
self.run()
return
except socket.timeout, s:
print "Connection timed out with", s
self.run()
return
remaining_blocks -= fetch_size
chunk += data_block
resultQ.put([start, chunk])
您可以通过分离责任来简化代码:
不应尝试在无限循环中重新连接。如果有错误;让我们看看调用download_file()
的代码,如果需要,请重新提交它download\u file()
- 关于并发连接数的控制可以封装在
对象中。在这种情况下,线程数可能与并发连接数不同信号量
请参阅。但正如您所看到的,只要有项目要从workQ中获取,线程就会继续运行,如果一个线程遇到503,我希望将可用线程的数量减少1。。留下剩下的线程来处理WorkQ中剩下的内容非常好的信息,谢谢!我没有看到您如何使用threadpool调整池的大小。。我一定忽略了一些明显的东西?谢谢,我需要更仔细地阅读这篇文章。我最终得出了与您所说的相同的结论,只要退出线程run(),它就会停止尝试并从队列中提取。。我喜欢你的建议,谢谢!