抓取Twitter用户和追随者数据_Twitter_Web Crawler_Social Networking_Twitter4j

抓取Twitter用户和追随者数据

twitter web-crawler

抓取Twitter用户和追随者数据,twitter,web-crawler,social-networking,twitter4j,Twitter,Web Crawler,Social Networking,Twitter4j,我有一个庞大的推特用户数据库（约600万）。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等我想用这些建立一个用户关注者列表。基本上我想创建另一个表，它将有两列- 1）用户ID（我拥有的用户ID） 2）追随者ID（ID，用分号分隔-此用户所有追随者的ID）例如：如果id为001的用户被id为002003的用户跟踪，则记录如下所示- 用户ID-001 跟随者ID-002；003 我希望最好使用Java实现这一点，但我也对其他语言持开放态度我试着使用twitter4j——一个Jav

我有一个庞大的推特用户数据库（约600万）。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等

我想用这些建立一个用户关注者列表。基本上我想创建另一个表，它将有两列- 1）用户ID（我拥有的用户ID） 2）追随者ID（ID，用分号分隔-此用户所有追随者的ID）

例如：如果id为001的用户被id为002003的用户跟踪，则记录如下所示-

用户ID-001 跟随者ID-002；003

我希望最好使用Java实现这一点，但我也对其他语言持开放态度

我试着使用twitter4j——一个Java库来获取推文、用户等信息——但它对每天API调用的数量有限制。使用twitter搜索或restapi是不可能的，因为它没有给我特定用户的追随者的id

我的教授给了我另一个建议——抓取推特的网页。例如，如果一个用户句柄是xxx，那么我需要抓取下面的链接-

获取此网页并解析HTML以获取关注者ID。我用Firebug查看了网页，我可以看到所有追随者的ID

这里的问题是——如何为我拥有的600万用户做到这一点？（我有句柄，所以我只需要抓取上面提到的链接，用下一个句柄替换xxx）

我试图使用Crawler4J——一种网络爬虫来抓取twitter页面，但由于twitter提高了它们的安全性——这也是不可能的

我该怎么做？请帮忙-我做这件事是我研究项目的一部分，我真的被困在这里了

我想找到一种方法，通过它我可以抓取Twitter网页来获取所需的信息

请帮忙

我将从下面的链接开始。这是可以做到的，但需要相当长的时间

考虑到贾斯汀·贝伯有40000000名追随者，因此使用一个代币就需要5天半的时间

40000000（关注者）/5000（通话中返回的记录）/15（15分钟内最多休息通话）/4（1小时内每隔15分钟）=133小时

“Twitter提高了他们的安全性”，特别是因为他们不希望你这样做。。。如果你在一个研究项目中有效地使用了这些数据，为什么不试着联系他们并直接索取呢？（如果没有别的，你可能会被速率限制刺痛——每秒1个用户，需要两个半月才能获得600万用户的数据……）我正在做类似的事情。如果你已经解决了这个问题或者找到了解决方案，你会很乐意一起工作的。我使用它的原因当然不同，没有违法或不好的。我想找到合法帐户暂停以及youtube和FB。