Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/api/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/mongodb/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Api 多久运行一次cron,挖掘twitter公共时间线?_Api_Twitter_Cron - Fatal编程技术网

Api 多久运行一次cron,挖掘twitter公共时间线?

Api 多久运行一次cron,挖掘twitter公共时间线?,api,twitter,cron,Api,Twitter,Cron,依赖于twitter公共时间线的网络应用程序,它们多久收集一次数据?每分钟肯定有数十万条信息,对吗?他们如何收集所有的推文而不丢失其中的任何一条?一些服务(Friendfeed就是一个很好的例子)被授予访问的权限,也称为“消防软管”。它需要获得批准和书面协议。正如前面所说,twitter API是有费率限制的。公共时间线(twitter.com/public_timeline)在相同意义上没有速率限制,但它每5秒更新一次,因此大多数tweet从未出现在那里 我认为有三四家公司可以使用fireho

依赖于twitter公共时间线的网络应用程序,它们多久收集一次数据?每分钟肯定有数十万条信息,对吗?他们如何收集所有的推文而不丢失其中的任何一条?

一些服务(Friendfeed就是一个很好的例子)被授予访问的权限,也称为“消防软管”。它需要获得批准和书面协议。

正如前面所说,twitter API是有费率限制的。公共时间线(twitter.com/public_timeline)在相同意义上没有速率限制,但它每5秒更新一次,因此大多数tweet从未出现在那里

我认为有三四家公司可以使用firehose,这就是Twitter的完整提要。FriendFeed就是其中之一。另一个是Gnip。Gnip将feed转售给其他公司。这可能是获得完整推特订阅源的唯一可行方法。

点击此处:

如果每小时100个请求还不够,请将您的帐户列入白名单(每小时允许20000个请求)


@ceejayoz不是100个GET请求一般是100个请求,不包括一些请求,如验证凭据和速率限制状态。

公共时间线不再是挖掘数据的好地方。Twitter现在疯狂地使用它的tweet来输出tweet。与publictimeline最接近的比较是该方法,但它只包括一个小样本。如果您需要收集所有(或更多)推文,而不是spritzer方法,则需要签署书面协议才能访问其他流式API(HTTP推送)源,例如返回所有公共推文的源。

这是否意味着像twizon.com这样的网站,Twizon可能会使用Twitter搜索API来搜索“亚马逊”和其他相关关键词。他们没有拉下公开的时间表。我不确定这是否足够。如果我缩短URL,谈论产品,在推文中从不提及亚马逊,会怎么样?事实上,我查看了一些tweet,没有提到“Amazon”这个词,而且大部分使用了短url。唯一的方法是阅读推文,检查短URL,将其转换为长URL,然后保存推文,如果它是关于亚马逊产品的(基于URL)。我有什么遗漏吗?