Python 运行spider时如何在日志中写入scrapy?
在运行scrapy spider时,我看到日志消息有“DEBUG:”,它有 1.调试:爬网(200)(获取)(引用程序:无) 2.调试:从(200)中刮取 我想知道 1.那些“爬行”和“刮来的”意味着什么?Python 运行spider时如何在日志中写入scrapy?,python,scrapy,scrapyd,portia,Python,Scrapy,Scrapyd,Portia,在运行scrapy spider时,我看到日志消息有“DEBUG:”,它有 1.调试:爬网(200)(获取)(引用程序:无) 2.调试:从(200)中刮取 我想知道 1.那些“爬行”和“刮来的”意味着什么? 2.从以上两个ULR返回的位置(即,在抓取保存这些URL的变量/参数的页面时)让我尝试根据上显示的抓取示例代码进行解释。我把它保存在一个文件scrapy\u example.py中 from scrapy import Spider, Item, Field class Post(Item
2.从以上两个ULR返回的位置(即,在抓取保存这些URL的变量/参数的页面时)让我尝试根据上显示的
抓取示例代码进行解释。我把它保存在一个文件scrapy\u example.py
中
from scrapy import Spider, Item, Field
class Post(Item):
title = Field()
class BlogSpider(Spider):
name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
def parse(self, response):
return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令scrapy runspider scrapy\u example.py执行此操作将产生以下输出:
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
(…)
调试:已爬网(200)(引用者:无)[“部分”]
调试:从
{'title':u'使用git在大型分布式团队中管理假期\xa0'}
调试:从
{'title':u'跨编程语言的性别不平等\xa0Languages'}
(...)
Crawled
意思是:scrapy已经下载了该网页
Scraped
意思是:scrapy从该网页中提取了一些数据
URL
在脚本中作为start\u URL
参数给出
您的输出必须是通过运行spider生成的。搜索定义爬行器的文件,您应该能够找到定义url的位置