Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/327.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何通过在谷歌上搜索来抓取特定域的链接?_Python_Web Crawler_Data Mining_Scrapy - Fatal编程技术网

Python 如何通过在谷歌上搜索来抓取特定域的链接?

Python 如何通过在谷歌上搜索来抓取特定域的链接?,python,web-crawler,data-mining,scrapy,Python,Web Crawler,Data Mining,Scrapy,我有一个印度歌曲的歌词语料库,需要在它们的发行年份上加上标签,以便进行一个我正在进行的实验 有一个网站LyricsIndia.net,它有一个关于这些歌词的详尽数据库,记录了年份,但不幸的是,这些歌词无法在网站上搜索。相反,当我在谷歌上搜索部分歌词作为搜索字符串时,在lyricsindia.net上指向歌曲的链接总是排在前十名 现在,我想知道是否可以使用像scrapy这样的web爬行框架使用搜索字符串作为爬行的起点。我遇到的每一个粗糙的教程都是从一个起始URL开始的 您的搜索字符串可能是带有Sc

我有一个印度歌曲的歌词语料库,需要在它们的发行年份上加上标签,以便进行一个我正在进行的实验

有一个网站LyricsIndia.net,它有一个关于这些歌词的详尽数据库,记录了年份,但不幸的是,这些歌词无法在网站上搜索。相反,当我在谷歌上搜索部分歌词作为搜索字符串时,在lyricsindia.net上指向歌曲的链接总是排在前十名


现在,我想知道是否可以使用像scrapy这样的web爬行框架使用搜索字符串作为爬行的起点。我遇到的每一个粗糙的教程都是从一个起始URL开始的

您的搜索字符串可能是带有Scrapy的url的一部分。类似google.com的东西?q=my+string

或者,您可以检索搜索表单,并用字符串填充它,例如:

return [FormRequest.from_response(response,
            formdata={'search': 'you\'re search string'},
            callback=self.parse)]
我相信Scrapy会做你想做的事