Python Scrapy:创建对不在允许的\u域中的站点的请求
我正在抓取某个网站。在某些情况下,我可能想请求访问不在允许的\u域中列出的网站。可能吗?如果没有,我是否可以临时将域添加到其中,创建一个请求,然后从解析器回调中删除该域?在Python Scrapy:创建对不在允许的\u域中的站点的请求,python,scrapy,Python,Scrapy,我正在抓取某个网站。在某些情况下,我可能想请求访问不在允许的\u域中列出的网站。可能吗?如果没有,我是否可以临时将域添加到其中,创建一个请求,然后从解析器回调中删除该域?在请求对象()上设置dont\u filter=True: dont_filter(布尔)–表示此请求不应被删除 由调度程序过滤 例如: from scrapy.spider import BaseSpider from scrapy.http import Request class MySpider(BaseSpider
请求
对象()上设置dont\u filter=True
:
dont_filter(布尔)–表示此请求不应被删除
由调度程序过滤
例如:
from scrapy.spider import BaseSpider
from scrapy.http import Request
class MySpider(BaseSpider):
name = 'wikipedia'
allowed_domains = ['en.wikipedia.org']
start_urls = [
'http://en.wikipedia.org/wiki/Main_Page',
]
def parse(self, response):
print "I'm at wikipedia"
request = Request(url="https://google.com",
callback=self.parse_google,
dont_filter=True)
yield request
def parse_google(self, response):
print "I'm at google"