Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 抓取部分数据的抓取程序_Python_Scrapy - Fatal编程技术网

Python 抓取部分数据的抓取程序

Python 抓取部分数据的抓取程序,python,scrapy,Python,Scrapy,我用Scrapy来爬网一些网站 我需要每小时获取数据,所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本,并为每个“下标”编写了另一个脚本 所以我有一个“master”脚本 “os.system(“cd/home/../directory1;python directory1Launch.py”)” 还有一些“从”脚本 “os.system(“抓取目录1-a start\u url\“url\”-o data.json”)” 对于一定数量的爬虫 那很好。

我用Scrapy来爬网一些网站

我需要每小时获取数据,所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本,并为每个“下标”编写了另一个脚本

所以我有一个“master”脚本

“os.system(“cd/home/../directory1;python directory1Launch.py”)”

还有一些“”脚本

os.system(“抓取目录1-a start\u url\“url\”-o data.json”)”

对于一定数量的爬虫

那很好。然后我不得不在管道中添加一些函数。现在,两个爬虫(在同一个站点上工作)只抓取数据的一小部分(2项而不是7项)

事实上,如果我手动启动“master”脚本,一切正常

另一个爬虫也像以前一样工作

也许这是一个时间问题(解析器花费了太多时间?),但手动启动时也会发生


有什么想法吗?

每个脚本都会进行多个查询吗?每个脚本都会执行一个爬虫程序,其中一些脚本在命令行的输入中有多个起始url,另一些脚本只有一个url,但如果需要,它们可以在爬虫过程中发出更多请求。一般来说,如果输入中有一个以上的url,而不是一个url请求,那么我会手动发出更多的请求(使用request(response.url,meta={'item\u data':day},callback=self.scrape\u Morning,dont\u filter=True)或者类似的东西。我(使用crontab)在没有管道的情况下执行了一些请求,它工作了。。。我想问题在于管道带来的减速。这有意义吗?它正在工作的管道,不会给出任何错误…通常刮取最常见的问题是没有给服务器足够的时间呼吸/响应。尝试暂停编程:
from time import sleep
为您提供了一个工具<代码>睡眠(1)使您的脚本暂停1秒,以便您可以根据需要进行调整。谢谢,我会尝试,但如果手动执行相同的命令,效果会很好,这毫无意义。