Web scraping 我什么时候必须设置标题?如何获取标题?

Web scraping 我什么时候必须设置标题?如何获取标题?,web-scraping,scrapy,header,Web Scraping,Scrapy,Header,我正试图从www.blogabet.com上抓取一些信息 与此同时,我正在udemy参加一个关于网络绘画的课程。我参加的课程的作者已经给了我问题的答案。然而,我不完全理解为什么我必须采取他提到的具体步骤。你可以在下面找到他的密码 我在问自己: 1.对于哪些网站,我必须使用标题? 2.如何获取必须在标题中提供的信息? 3.如何获取他获取的url?基本上,我只是想取: 非常感谢:) 如果在加载该页面时查看网络面板,可以看到XHR及其发送的标题 看来他只是复制了这些 通常,您可以跳过除用户代理之外的

我正试图从www.blogabet.com上抓取一些信息

与此同时,我正在udemy参加一个关于网络绘画的课程。我参加的课程的作者已经给了我问题的答案。然而,我不完全理解为什么我必须采取他提到的具体步骤。你可以在下面找到他的密码

我在问自己: 1.对于哪些网站,我必须使用标题? 2.如何获取必须在标题中提供的信息? 3.如何获取他获取的url?基本上,我只是想取:

非常感谢:)


如果在加载该页面时查看网络面板,可以看到XHR及其发送的标题

看来他只是复制了这些


通常,您可以跳过除用户代理之外的所有内容,除非您知道自己在做什么,否则您希望避免设置主机、连接和接受头。

谢谢!你能简单地解释一下为什么,例如,我不需要为这个页面设置标题吗?同样,他是如何获得长Url的?我只是使用了,但这不起作用:(由服务器决定需要发送哪些标题。要获得长url,请在chrome中加载/提供信息,然后在网络面板中查看屏幕截图中的XHR

scrapy shell

from scrapy import Request
url = 'https://blogabet.com/tipsters/?f[language]=all&f[pickType]=all&f[sport]=all&f[sportPercent]=&f[leagues]=all&f[picksOver]=0&f[lastActive]=12&f[bookiesUsed]=null&f[bookiePercent]=&f[order]=followers&f[start]=0'

page = Request(url,
                headers={'Accept': '*/*',
                         'Accept-Encoding': 'gzip, deflate, br',
                         'Accept-Language': 'en-US,en;q=0.9,pl;q=0.8,de;q=0.7',
                         'Connection': 'keep-alive',
                         'Host': 'blogabet.com',
                         'Referer': 'https://blogabet.com/tipsters',
                         'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
                         'X-Requested-With': 'XMLHttpRequest'})

fetch(page)