Twitter流媒体API将跟踪数千名用户

Twitter流媒体API将跟踪数千名用户,twitter,tweepy,twython,Twitter,Tweepy,Twython,我正在考虑使用Twitter流API(public streams)来跟踪许多用户的最新推文(高达10万条)。尽管我已经阅读了关于不同利率限制的各种来源,但我仍然有几个问题: 根据文档:默认访问级别允许多达400个跟踪关键字,5000个跟踪用户ID。对于更多的5k用户,有哪些最佳实践值得遵循。例如,创建20个应用程序以获得20个不同的访问令牌 如果我只关注一个用户,那么经验法则“你获得了所有推文的1%左右”真的适用吗?如果我将更多用户添加到5k,这会发生什么变化 使用RESTAPI是否是一种合

我正在考虑使用Twitter流API(public streams)来跟踪许多用户的最新推文(高达10万条)。尽管我已经阅读了关于不同利率限制的各种来源,但我仍然有几个问题:

  • 根据文档:
    默认访问级别允许多达400个跟踪关键字,5000个跟踪用户ID
    。对于更多的5k用户,有哪些最佳实践值得遵循。例如,创建20个应用程序以获得20个不同的访问令牌

  • 如果我只关注一个用户,那么经验法则“你获得了所有推文的1%左右”真的适用吗?如果我将更多用户添加到5k,这会发生什么变化

  • 使用RESTAPI是否是一种合理的选择,例如,通过逐分钟轮询用户的最新推文


更多5k用户应遵循哪些最佳实践。例如,创建20个应用程序以获得20个不同的访问令牌?

您不想使用多个应用程序。一位国防部官员很好地总结了这一情况。本文档还特别指出了尝试这样做的开发人员:

每个帐户只能创建一个到公共端点的固定连接,并且使用相同的帐户凭据多次连接到公共流将导致断开最早的连接

进行过多连接尝试(成功和失败)的客户端可能会面临IP自动被禁止的风险

速率限制就是速率限制——你不能得到超过Twitter允许的速率

如果我只关注一个用户,那么“你收到的推文约占所有推文的1%”这条经验法则真的适用吗?如果我将更多用户添加到5k,这会发生什么变化?

1%的规则仍然适用,但在给定的时间间隔内,一个用户不可能负责至少1%的推文量。更多的用户意味着更多的推文,但除非所有5k都是非常大容量的推文,否则你不应该有问题

使用REST API是否是一种合理的选择,例如,通过逐分钟轮询用户的最新推文?

这个想法很有趣,但可能不是。您在搜索API中也受到速率限制。对于,速率限制为每15分钟180次查询。您只能使用此端点获取一个用户的tweet,而常规用户不接受用户id作为参数,因此您无法利用此参数(也有180个查询/15分钟的速率限制)


Twitter和API概述非常出色,值得仔细阅读。不幸的是,Tweepy的文档不完整,Tweython也不太好,但它们都直接利用了Twitter API,因此这将让您很好地了解一切的工作原理。祝你好运

要通过400个关键词和5k个关注者,您需要申请企业访问权限

基本的 400个关键字、5000个用户ID和25个位置框 一个允许的连接上有一个过滤规则,调整规则时需要断开连接

企业 每个流最多250000个过滤器,每个过滤器最多2048个字符。 单个连接上有数千条规则,使用rules API添加/删除规则时无需断开连接


Luigi,谢谢!这个链接非常有用。不幸的是,关于如何超越400个关键词或5000个追随者的问题还没有得到回答。加上你的回复,我有点认为没有直接的方法跟踪100k用户(除了20个用户跟踪每个5k用户)。我成功地尝试了特威比和特威顿。只是利率限制阻止了我继续下去。再次感谢!