Python 搜索爬行“;“机器人”是什么;?

Python 搜索爬行“;“机器人”是什么;?,python,windows,search,hyperlink,Python,Windows,Search,Hyperlink,我正在从事一个项目,该项目要求我收集有关特定主题的网站的大量URL列表。我想写一个脚本,将使用谷歌搜索特定的条款,然后保存从结果到一个文件的URL。我该怎么做呢?我使用了一个名为xgoogle的模块,但它总是不返回任何结果 我正在Windows 7上使用Python 2.6。谷歌有一个API库。我建议您使用: 它是一个restful API,这意味着通过python/js很容易获取结果。我想你只能得到32个结果,但这应该足够了。它将返回一个很好的结构化对象,您可以使用它,而无需对html解析进行

我正在从事一个项目,该项目要求我收集有关特定主题的网站的大量URL列表。我想写一个脚本,将使用谷歌搜索特定的条款,然后保存从结果到一个文件的URL。我该怎么做呢?我使用了一个名为xgoogle的模块,但它总是不返回任何结果


我正在Windows 7上使用Python 2.6。

谷歌有一个API库。我建议您使用:

它是一个restful API,这意味着通过python/js很容易获取结果。我想你只能得到32个结果,但这应该足够了。它将返回一个很好的结构化对象,您可以使用它,而无需对html解析进行任何操作


如果您想“爬网”,那么可以使用urllib抓取每个URL并获取它们的内容以及它们引用的URL。请确保更改
urllib2
的用户代理。默认设置往往会被谷歌屏蔽。确保您遵守正在编写脚本的搜索引擎的使用条款。

我将如何使用ulllib来做到这一点。这就是我真正想要做的,抓取我找到的每一页并跟踪它的链接,在抓取之前存储我找到的每一个链接。我查过谷歌的API,但他们不再使用了。基本的方法是抓取页面内容,然后使用正则表达式查找所有链接。但这很快就会变得一团糟。相反,看看漂亮的汤。它有利于处理HTMLH。此Api已被弃用。他们建议使用自定义搜索引擎Api,该Api每天有超过100个查询的账单:-(