Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
什么是免费/付费搜索API';是否允许对结果数据进行编程查询和缓存/存储?_Api_Search_Screen Scraping_Data Mining - Fatal编程技术网

什么是免费/付费搜索API';是否允许对结果数据进行编程查询和缓存/存储?

什么是免费/付费搜索API';是否允许对结果数据进行编程查询和缓存/存储?,api,search,screen-scraping,data-mining,Api,Search,Screen Scraping,Data Mining,如果你对搜索API做过认真的研究,你就会知道它们中的大多数都有大量TOS/TOU限制,这使得它们几乎不可能在最无聊的应用程序中使用 Bing的2.0API、Yahoo Search BOSS、GooglePlaces、GoogleAjax搜索(dead)等等,对我们来说限制太多了。我只需要一次运行有限且数量相对较少的查询(可能是500k),存储结果中的特定数据,以便在应用程序中使用 例如,我们需要将企业名称与其目标网站进行匹配(我们编写了算法,以便在必要时从一组结果中进行“最佳猜测”;我们只需要

如果你对搜索API做过认真的研究,你就会知道它们中的大多数都有大量TOS/TOU限制,这使得它们几乎不可能在最无聊的应用程序中使用

Bing的2.0API、Yahoo Search BOSS、GooglePlaces、GoogleAjax搜索(dead)等等,对我们来说限制太多了。我只需要一次运行有限且数量相对较少的查询(可能是500k),存储结果中的特定数据,以便在应用程序中使用

例如,我们需要将企业名称与其目标网站进行匹配(我们编写了算法,以便在必要时从一组结果中进行“最佳猜测”;我们只需要一个普通的结果集)。此外,我们需要将地址与该公司相匹配

不幸的是,我可以找到零搜索API,它允许我们以编程的、非用户发起的方式启动查询

我们甚至非常渴望给某人冰冷、硬的现金来获取这种数据;谷歌、必应、雅虎和其他公司似乎根本不想要我们的钱(从他们的TOSes中可以看出)

有什么想法吗

一个由50亿网页、网页排名、链接图和其他元数据组成的自由访问索引,托管在AmazonEC2上

他们的服务条款(或TOU)也非常合理且不受限制:


如果您了解一些visual basic,我建议您使用。这是一个免费的Excel插件,您只需要使用一个免费的Microsoft帐户


查询限制为每个查询20000字。你可以获得点击、印象、点击率、CPC、平均出价和总成本等信息。如果使用更高级的关键字研究功能,查询限制会稍微低一些。

大家好!我看到这一点得到了非常接近的投票。如果有一个SO社区更适合这个问题,请让我知道。老实说,我把它们都看了一遍,原来那本如此恰当的书似乎是最贴切的。谢谢!:)你试过Blekko吗?“我可以找到零搜索API,允许我们以编程、非用户启动的方式启动查询”,这是什么意思?关于谷歌的定制搜索引擎有一个讨论,它有可能搜索整个网站(添加一个站点,然后删除它)。您还可以为自定义搜索引擎购买“积分”,尽管有些用户发现即使在这种情况下也存在限制。无论如何,我理解你关于当前搜索API局限性的观点,谷歌是最好的搜索引擎,即使其他竞争对手没有更大的索引。非常感谢你的回复,sw。根据你的建议,我查看了Blekko,他们的TOU也非常严格。(不过,就目前而言,Blekko API还有一线希望:)谷歌的CSE对我们不起作用;我们更喜欢一个长期的合法解决方案,而不是一个短期的、法律上有问题的补丁。我们有钱,愿意放弃!:)为什么没有一个大公司愿意接纳像我们这样有合法商业需求的实体呢?我甚至写了一篇关于它的文章:因为那里有商业机会。我认为在您的情况下,您必须添加[许多]数据源的组合,但混合/清理/等数据并不简单。因为这是一个非常有趣的话题,所以我有兴趣通过聊天来讨论它。我现在关注的是freenode上的#bigdata。我对这一点没有太多研究(它可能满足要求,不确定);我想我应该加上它作为评论: