Api 从Twitter获取关于追随者的大量数据_Api_Twitter

Api 从Twitter获取关于追随者的大量数据

api twitter

Api 从Twitter获取关于追随者的大量数据,api,twitter,Api,Twitter,给定Twitter中的A和B页面，我想找到所有同时关注A和B页面的用户 Twitter确实提供了一种查找追随者的方法：但是，每个请求返回的用户数不超过5000，每15分钟最多只能发送15个，平均速度为每分钟5000个用户，这显然不适用于拥有数百万追随者的大客户有人知道更好的获取此类数据的方法吗，最好是使用devapi？我的意思是，从技术上讲，我可以尝试模拟浏览器滚动，但它会非常缓慢、混乱，而且web客户端可能使用相同的API UPD: 此外，我认为我们可以缩小需要下载的数据量。例如，重叠的数

给定Twitter中的A和B页面，我想找到所有同时关注A和B页面的用户

Twitter确实提供了一种查找追随者的方法：

但是，每个请求返回的用户数不超过5000，每15分钟最多只能发送15个，平均速度为每分钟5000个用户，这显然不适用于拥有数百万追随者的大客户

有人知道更好的获取此类数据的方法吗，最好是使用devapi？我的意思是，从技术上讲，我可以尝试模拟浏览器滚动，但它会非常缓慢、混乱，而且web客户端可能使用相同的API

UPD:

此外，我认为我们可以缩小需要下载的数据量。例如，重叠的数据需要按年龄、性别或位置进行过滤，因此，如果有一种方法可以将这些信息作为参数提供，从而获得较少的数据，那么这样就可以了

此类API的一个示例：VK中的方法。您可以指定组\u id（相当于正在跟踪的Twitter帐户）并搜索该组的关注者，通过其他参数进行过滤。

我认为这不容易实现，因为关注者的数量限制为64int，即255486129307。我不认为任何API能够在不进行流式处理或批处理的情况下返回那么多数据。这就是为什么它是零碎的，有局限性的原因

我建议使用一些流媒体应用程序（e.x Kafka、Amazon Kinesis或Azure事件中心）

TwitterAPI支持流式传输（），这意味着您可以在生产者（从源获取数据的应用程序）中请求所需的信息流，然后生产者将数据发送/流式传输到主题，然后您可以从那里批量获取并显示它

当然，有两种情况，一种是您需要在数据库中存储追随者并在更改时更新，另一种是每次从一开始就读取流，这将导致明显的延迟

我建议将流数据保存在DB中，并在更改时进行更新。（NoSQL将是一个完美的解决方案）

我猜这是一个有意的限制。Twitter并不是真的想让你收集所有他们的用户数据，这样的界面可以让你很快地收集到这些数据。获取成吨的追随者数据对他们的服务器来说是一个沉重的负担，而你拥有所有这些数据并不符合他们的商业利益，除非你付给他们相当多的钱

如果没有他们的帮助，您最好的选择可能是获取多个API密钥并从VPN后面的服务器中提取，但他们最终可能会找到您

如果您有一个有效的商业理由帮助他们想要这么多数据，我建议您与他们联系，询问您是否可以直接下载JSON/API导出。不过，这可能是一个相当繁重的请求。

在拥有数百万追随者的帐户之间找到普通用户是正确的，这是一项耗时的任务
您可以使用预抓取的用户来检查其连接，例如，您可以看到用户A与用户B有连接。
使用此api调用

我在网上发现的另一个好处是，它提供了一些帐户之间的共同点，但不是所有的

，第一个选项将显示两个帐户之间的关系，而不是它们的追随者，因此对我不起作用。此外，该网站似乎只要求很少的用户并对其进行比较，对于拥有数百万追随者的2个ACC，我只有3个重叠用户，这是没有用的。第一个选项允许您仅获取其中一个的追随者，并使用该方法检查他们的跟随用户B，如果你用自己的方法并行使用，这个选项几乎没有额外的速度，因为它有非常严格的限制率，对于第二个选项，yes网站不会提供大量信息，我听说给你功能的唯一服务是google social graph，不幸的是它已经离开了，我在GitHub gist中找到了一个，我不知道这对你有没有帮助看起来它只能流推，还是我错了？