Python 抓取部分数据的抓取程序_Python_Scrapy

Python 抓取部分数据的抓取程序

python scrapy

Python 抓取部分数据的抓取程序,python,scrapy,Python,Scrapy,我用Scrapy来爬网一些网站我需要每小时获取数据，所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本，并为每个“下标”编写了另一个脚本所以我有一个“master”脚本 “os.system（“cd/home/../directory1；python directory1Launch.py”）” 还有一些“从”脚本 “os.system（“抓取目录1-a start\u url\“url\”-o data.json”）” 对于一定数量的爬虫那很好。

我用Scrapy来爬网一些网站

我需要每小时获取数据，所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本，并为每个“下标”编写了另一个脚本

所以我有一个“master”脚本

“os.system（“cd/home/../directory1；python directory1Launch.py”）”

还有一些“从”脚本
“
os.system（“抓取目录1-a start\u url\“url\”-o data.json”）”
对于一定数量的爬虫
那很好。然后我不得不在管道中添加一些函数。现在，两个爬虫（在同一个站点上工作）只抓取数据的一小部分（2项而不是7项）
事实上，如果我手动启动“master”脚本，一切正常
另一个爬虫也像以前一样工作
也许这是一个时间问题（解析器花费了太多时间？），但手动启动时也会发生

有什么想法吗？
每个脚本都会进行多个查询吗？每个脚本都会执行一个爬虫程序，其中一些脚本在命令行的输入中有多个起始url，另一些脚本只有一个url，但如果需要，它们可以在爬虫过程中发出更多请求。一般来说，如果输入中有一个以上的url，而不是一个url请求，那么我会手动发出更多的请求（使用request（response.url，meta={'item\u data'：day}，callback=self.scrape\u Morning，dont\u filter=True）或者类似的东西。我（使用crontab）在没有管道的情况下执行了一些请求，它工作了。。。我想问题在于管道带来的减速。这有意义吗？它正在工作的管道，不会给出任何错误…通常刮取最常见的问题是没有给服务器足够的时间呼吸/响应。尝试暂停编程：
from time import sleep
为您提供了一个工具<代码>睡眠（1）使您的脚本暂停1秒，以便您可以根据需要进行调整。谢谢，我会尝试，但如果手动执行相同的命令，效果会很好，这毫无意义。