Python Scrapy如何避免重新下载最近下载的媒体?
据报道,Scrapy的文件管道和图像管道“避免重新下载最近下载的媒体” 我有一个爬行器,我正在使用(Python Scrapy如何避免重新下载最近下载的媒体?,python,scrapy,Python,Scrapy,据报道,Scrapy的文件管道和图像管道“避免重新下载最近下载的媒体” 我有一个爬行器,我正在使用(JOBDIR)运行它,以便暂停和恢复爬行。最初我只是在不下载文件的情况下抓取物品;后来,我添加了一个文件管道。但是,在使用管道重新运行spider“for real”之前,我忘了删除JOBDIR 我担心的是,JOBDIR中的requests.seen文件将包含已刮取的项目的指纹,但其中没有刮取的文件(因为刮取时管道尚未就位)。我正在考虑的是删除JOBDIR,然后重新开始清理 我的问题是:在没有再次
JOBDIR
)运行它,以便暂停和恢复爬行。最初我只是在不下载文件的情况下抓取物品;后来,我添加了一个文件管道。但是,在使用管道重新运行spider“for real”之前,我忘了删除JOBDIR
我担心的是,JOBDIR
中的requests.seen
文件将包含已刮取的项目的指纹,但其中没有刮取的文件(因为刮取时管道尚未就位)。我正在考虑的是删除JOBDIR
,然后重新开始清理
我的问题是:在没有再次下载所有文件的情况下,这会起作用吗?或者
FilesPipeline
是否依赖JOBDIR
跳过最近已下载的文件?(顺便说一句,我的FILES\u SOURCE
是一个S3 bucket)。正如我所知,scrapy计算文件名(通常是图像url中的base64),如果文件存在于文件夹中,scrapy不会尝试下载它。也许你可以尝试在scrapy.Request中设置don\u filter=True