Python 搜索爬行“；“机器人”是什么；？_Python_Windows_Search_Hyperlink

Python 搜索爬行“；“机器人”是什么；？

python windows search hyperlink

Python 搜索爬行“；“机器人”是什么；？,python,windows,search,hyperlink,Python,Windows,Search,Hyperlink,我正在从事一个项目，该项目要求我收集有关特定主题的网站的大量URL列表。我想写一个脚本，将使用谷歌搜索特定的条款，然后保存从结果到一个文件的URL。我该怎么做呢？我使用了一个名为xgoogle的模块，但它总是不返回任何结果我正在Windows 7上使用Python 2.6。谷歌有一个API库。我建议您使用：它是一个restful API，这意味着通过python/js很容易获取结果。我想你只能得到32个结果，但这应该足够了。它将返回一个很好的结构化对象，您可以使用它，而无需对html解析进行

我正在从事一个项目，该项目要求我收集有关特定主题的网站的大量URL列表。我想写一个脚本，将使用谷歌搜索特定的条款，然后保存从结果到一个文件的URL。我该怎么做呢？我使用了一个名为xgoogle的模块，但它总是不返回任何结果

我正在Windows 7上使用Python 2.6。

谷歌有一个API库。我建议您使用：

它是一个restful API，这意味着通过python/js很容易获取结果。我想你只能得到32个结果，但这应该足够了。它将返回一个很好的结构化对象，您可以使用它，而无需对html解析进行任何操作

如果您想“爬网”，那么可以使用urllib抓取每个URL并获取它们的内容以及它们引用的URL。请确保更改

urllib2

的用户代理。默认设置往往会被谷歌屏蔽。确保您遵守正在编写脚本的搜索引擎的使用条款。

我将如何使用ulllib来做到这一点。这就是我真正想要做的，抓取我找到的每一页并跟踪它的链接，在抓取之前存储我找到的每一个链接。我查过谷歌的API，但他们不再使用了。基本的方法是抓取页面内容，然后使用正则表达式查找所有链接。但这很快就会变得一团糟。相反，看看漂亮的汤。它有利于处理HTMLH。此Api已被弃用。他们建议使用自定义搜索引擎Api，该Api每天有超过100个查询的账单：-(