Api 从Twitter获取关于追随者的大量数据

Api 从Twitter获取关于追随者的大量数据,api,twitter,Api,Twitter,给定Twitter中的A和B页面,我想找到所有同时关注A和B页面的用户 Twitter确实提供了一种查找追随者的方法: 但是,每个请求返回的用户数不超过5000,每15分钟最多只能发送15个,平均速度为每分钟5000个用户,这显然不适用于拥有数百万追随者的大客户 有人知道更好的获取此类数据的方法吗,最好是使用devapi?我的意思是,从技术上讲,我可以尝试模拟浏览器滚动,但它会非常缓慢、混乱,而且web客户端可能使用相同的API UPD: 此外,我认为我们可以缩小需要下载的数据量。例如,重叠的数

给定Twitter中的A和B页面,我想找到所有同时关注A和B页面的用户

Twitter确实提供了一种查找追随者的方法:

但是,每个请求返回的用户数不超过5000,每15分钟最多只能发送15个,平均速度为每分钟5000个用户,这显然不适用于拥有数百万追随者的大客户

有人知道更好的获取此类数据的方法吗,最好是使用devapi?我的意思是,从技术上讲,我可以尝试模拟浏览器滚动,但它会非常缓慢、混乱,而且web客户端可能使用相同的API

UPD:

此外,我认为我们可以缩小需要下载的数据量。例如,重叠的数据需要按年龄、性别或位置进行过滤,因此,如果有一种方法可以将这些信息作为参数提供,从而获得较少的数据,那么这样就可以了


此类API的一个示例:VK中的方法。您可以指定组\u id(相当于正在跟踪的Twitter帐户)并搜索该组的关注者,通过其他参数进行过滤。

我认为这不容易实现,因为关注者的数量限制为64int,即255486129307。我不认为任何API能够在不进行流式处理或批处理的情况下返回那么多数据。这就是为什么它是零碎的,有局限性的原因

我建议使用一些流媒体应用程序(e.x Kafka、Amazon Kinesis或Azure事件中心)

TwitterAPI支持流式传输(),这意味着您可以在生产者(从源获取数据的应用程序)中请求所需的信息流,然后生产者将数据发送/流式传输到主题,然后您可以从那里批量获取并显示它

当然,有两种情况,一种是您需要在数据库中存储追随者并在更改时更新,另一种是每次从一开始就读取流,这将导致明显的延迟


我建议将流数据保存在DB中,并在更改时进行更新。(NoSQL将是一个完美的解决方案)

我猜这是一个有意的限制。Twitter并不是真的想让你收集所有他们的用户数据,这样的界面可以让你很快地收集到这些数据。获取成吨的追随者数据对他们的服务器来说是一个沉重的负担,而你拥有所有这些数据并不符合他们的商业利益,除非你付给他们相当多的钱

如果没有他们的帮助,您最好的选择可能是获取多个API密钥并从VPN后面的服务器中提取,但他们最终可能会找到您


如果您有一个有效的商业理由帮助他们想要这么多数据,我建议您与他们联系,询问您是否可以直接下载JSON/API导出。不过,这可能是一个相当繁重的请求。

在拥有数百万追随者的帐户之间找到普通用户是正确的,这是一项耗时的任务
您可以使用预抓取的用户来检查其连接,例如,您可以看到用户A与用户B有连接。
使用此api调用


我在网上发现的另一个好处是,它提供了一些帐户之间的共同点,但不是所有的

,第一个选项将显示两个帐户之间的关系,而不是它们的追随者,因此对我不起作用。此外,该网站似乎只要求很少的用户并对其进行比较,对于拥有数百万追随者的2个ACC,我只有3个重叠用户,这是没有用的。第一个选项允许您仅获取其中一个的追随者,并使用该方法检查他们的跟随用户B,如果你用自己的方法并行使用,这个选项几乎没有额外的速度,因为它有非常严格的限制率,对于第二个选项,yes网站不会提供大量信息,我听说给你功能的唯一服务是google social graph,不幸的是它已经离开了,我在GitHub gist中找到了一个,我不知道这对你有没有帮助看起来它只能流推,还是我错了?