Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/298.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 运行spider时如何在日志中写入scrapy?_Python_Scrapy_Scrapyd_Portia - Fatal编程技术网

Python 运行spider时如何在日志中写入scrapy?

Python 运行spider时如何在日志中写入scrapy?,python,scrapy,scrapyd,portia,Python,Scrapy,Scrapyd,Portia,在运行scrapy spider时,我看到日志消息有“DEBUG:”,它有 1.调试:爬网(200)(获取)(引用程序:无) 2.调试:从(200)中刮取 我想知道 1.那些“爬行”和“刮来的”意味着什么? 2.从以上两个ULR返回的位置(即,在抓取保存这些URL的变量/参数的页面时)让我尝试根据上显示的抓取示例代码进行解释。我把它保存在一个文件scrapy\u example.py中 from scrapy import Spider, Item, Field class Post(Item

在运行scrapy spider时,我看到日志消息有“DEBUG:”,它有 1.调试:爬网(200)(获取)(引用程序:无) 2.调试:从(200)中刮取

我想知道 1.那些“爬行”和“刮来的”意味着什么?
2.从以上两个ULR返回的位置(即,在抓取保存这些URL的变量/参数的页面时)

让我尝试根据上显示的
抓取示例代码进行解释。我把它保存在一个文件
scrapy\u example.py

from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令
scrapy runspider scrapy\u example.py执行此操作将产生以下输出:

(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
(…)
调试:已爬网(200)(引用者:无)[“部分”]
调试:从
{'title':u'使用git在大型分布式团队中管理假期\xa0'}
调试:从
{'title':u'跨编程语言的性别不平等\xa0Languages'}
(...)
Crawled
意思是:scrapy已经下载了该网页

Scraped
意思是:scrapy从该网页中提取了一些数据

URL
在脚本中作为
start\u URL
参数给出

您的输出必须是通过运行spider生成的。搜索定义爬行器的文件,您应该能够找到定义url的位置