Twitter 将推特';s的速率限制允许我进行必要的数据挖掘,以构建一个约60万用户的完整社交网络图?

Twitter 将推特';s的速率限制允许我进行必要的数据挖掘,以构建一个约60万用户的完整社交网络图?,twitter,social-networking,data-mining,rate-limiting,Twitter,Social Networking,Data Mining,Rate Limiting,主要问题:推特的费率限制是否允许我进行必要的数据挖掘,以构建一个完整的社交网络图,其中包含约60万用户中的所有定向边 以下是想法: 网络中的边/纽带/关系将是跟随者/跟随者关系 首先列出大约600名推特用户的具体名单,因为他们都来自大城市的所有新闻媒体 收集所有600名用户的所有追随者和朋友(他们关注的人)。这些用户可能平均每人有2000名追随者。他们可能有平均500个朋友(他们跟随的人) 由于这600人的追随者都在同一个城市,因此预计这些追随者中的许多人将是跟随这600人的相同用户。所以让我们

主要问题:推特的费率限制是否允许我进行必要的数据挖掘,以构建一个完整的社交网络图,其中包含约60万用户中的所有定向边

以下是想法:

网络中的边/纽带/关系将是跟随者/跟随者关系

首先列出大约600名推特用户的具体名单,因为他们都来自大城市的所有新闻媒体

收集所有600名用户的所有追随者和朋友(他们关注的人)。这些用户可能平均每人有2000名追随者。他们可能有平均500个朋友(他们跟随的人)

由于这600人的追随者都在同一个城市,因此预计这些追随者中的许多人将是跟随这600人的相同用户。所以让我们估计一下,这600个用户总共有大约600000个追随者和朋友。因此,这将是一个总共有600600名Twitter用户的子图/网络

因此,一旦我收集了这600人的60万追随者和朋友,我希望能够构建一个由这600人和他们的追随者组成的社交网络。这将要求我至少能够在这600600个用户中找到所有定向边(无论这600600个用户中的每一个是否相互跟随)。
有了Twitter的费率限制,这种数据挖掘是否可行?

我将以相反的顺序回答这些问题,首先从David Marx开始: 嗯,我确实可以访问一个相当强大的计算机研究中心,它拥有大量的存储容量,所以这不应该是一个问题。然而,我不知道软件是否能处理它

很可能我将不得不缩小项目规模,这是可以的。我的想法是从一个更大的想法开始,找出它能有多大,然后相应地削减

现在跟进Anony Mouse的问题:我的部分问题是我不确定我是否正确解释了Twitter的费率限制。我不确定是每15分钟15个请求,还是每15分钟30个请求。我认为一个请求将获得5000个追随者/朋友,因此如果限制为每15分钟15个请求,那么你大概可以每15分钟收集75000个朋友或追随者。我还试图弄清楚是否有任何程序可以为任何类型的研究目的申请更高的费率限制

以下是他们列出的限制:

主要问题:Twitter的费率限制是否允许我进行数据挖掘(…)

是的,这在技术上是可行的,但是如果您只使用一个API用户访问令牌,则需要花费很长时间。我的意思是,这里可能有超过6个月的不间断运行

更准确地说:

  • 可以非常快速地提取节点(twitter用户),因为您将使用
    users/lookup
    API端点,它允许您每个请求提取100个节点,并每15分钟窗口(每个访问令牌)发出180个请求
  • 边缘提取(用户之间的跟随关系)是缓慢的部分,您将使用
    好友/id
    关注者/id
    API端点,限制为每15分钟15次查询,并允许您为每个请求的唯一用户提取最多5000个关注者朋友
您可以使用节点元数据(描述、文本、位置、语言、时区)执行一些有趣的分析,即使没有提取“图形”(跟踪每个人之间的关系)

解决办法这是通过将提取分散到多个访问令牌来并行化提取的子部分。只要您尊重受保护的帐户,就好像遵守我的使用条款一样

在任何情况下,您都应该过滤掉名人的边缘提取(您可能不想提取hootsuite的追随者,他们几乎有600万)

免责声明:此处自我推广:如果您不想自己开发此功能,我可以为您提取并提供图形文件,因为我正在提取twitter图形。(我在发帖前已阅读并确认)

我还试图弄清楚是否有任何程序可以为任何类型的研究目的申请更高的利率限制

更高的速率限制,就像以前版本的推特API一样。你可能仍然应该联系twitter,看看他们是否能帮助你,因为你的工作是为了学术目的

很可能我将不得不缩小项目规模,这是可以的


我建议您尽可能减少600名用户的初始列表。只保留那些真正关注你的主题的人,他们的听众不会太多。提取当地名人的图表将为您提供一个包含许多与您想要研究的人群毫无关联的人的图表。

也许您可以告诉我们twitter的速率限制,这样我们就不必自己查找它们了。另外,我主要担心的是,由此产生的网络在很大程度上毫无意义。。。twitter following实际上有什么语义?只不过是“意外点击了错误的按钮”,不是吗?你确定你有足够的硬件来处理一个有600K个节点和大约120万条边的图形上的数字(使用你估计的每个2K个跟随者)?