Python 运行spider时如何在日志中写入scrapy？_Python_Scrapy_Scrapyd_Portia

Python 运行spider时如何在日志中写入scrapy？

python scrapy

Python 运行spider时如何在日志中写入scrapy？,python,scrapy,scrapyd,portia,Python,Scrapy,Scrapyd,Portia,在运行scrapy spider时，我看到日志消息有“DEBUG:”，它有 1.调试：爬网（200）（获取）（引用程序：无） 2.调试：从（200）中刮取我想知道 1.那些“爬行”和“刮来的”意味着什么？ 2.从以上两个ULR返回的位置（即，在抓取保存这些URL的变量/参数的页面时）让我尝试根据上显示的抓取示例代码进行解释。我把它保存在一个文件scrapy\u example.py中 from scrapy import Spider, Item, Field class Post(Item

在运行scrapy spider时，我看到日志消息有“DEBUG:”，它有 1.调试：爬网（200）（获取）（引用程序：无） 2.调试：从（200）中刮取

我想知道 1.那些“爬行”和“刮来的”意味着什么？

2.从以上两个ULR返回的位置（即，在抓取保存这些URL的变量/参数的页面时）

让我尝试根据上显示的

抓取示例代码进行解释。我把它保存在一个文件scrapy\u example.py
中
from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

使用命令scrapy runspider scrapy\u example.py执行此操作将产生以下输出：
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)

（…）
调试：已爬网（200）（引用者：无）[“部分”]
调试：从
{'title'：u'使用git在大型分布式团队中管理假期\xa0'}
调试：从
{'title'：u'跨编程语言的性别不平等\xa0Languages'}
(...)

Crawled
意思是：scrapy已经下载了该网页
Scraped
意思是：scrapy从该网页中提取了一些数据
URL
在脚本中作为start\u URL
参数给出
您的输出必须是通过运行spider生成的。搜索定义爬行器的文件，您应该能够找到定义url的位置