抓取Twitter用户和追随者数据
我有一个庞大的推特用户数据库(约600万)。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等 我想用这些建立一个用户关注者列表。基本上我想创建另一个表,它将有两列- 1) 用户ID(我拥有的用户ID) 2) 追随者ID(ID,用分号分隔-此用户所有追随者的ID) 例如:如果id为001的用户被id为002003的用户跟踪,则记录如下所示- 用户ID-001 跟随者ID-002;003 我希望最好使用Java实现这一点,但我也对其他语言持开放态度 我试着使用twitter4j——一个Java库来获取推文、用户等信息——但它对每天API调用的数量有限制。 使用twitter搜索或restapi是不可能的,因为它没有给我特定用户的追随者的id 我的教授给了我另一个建议——抓取推特的网页。 例如,如果一个用户句柄是xxx,那么我需要抓取下面的链接- 获取此网页并解析HTML以获取关注者ID。我用Firebug查看了网页,我可以看到所有追随者的ID 这里的问题是——如何为我拥有的600万用户做到这一点?(我有句柄,所以我只需要抓取上面提到的链接,用下一个句柄替换xxx)抓取Twitter用户和追随者数据,twitter,web-crawler,social-networking,twitter4j,Twitter,Web Crawler,Social Networking,Twitter4j,我有一个庞大的推特用户数据库(约600万)。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等 我想用这些建立一个用户关注者列表。基本上我想创建另一个表,它将有两列- 1) 用户ID(我拥有的用户ID) 2) 追随者ID(ID,用分号分隔-此用户所有追随者的ID) 例如:如果id为001的用户被id为002003的用户跟踪,则记录如下所示- 用户ID-001 跟随者ID-002;003 我希望最好使用Java实现这一点,但我也对其他语言持开放态度 我试着使用twitter4j——一个Jav
我试图使用Crawler4J——一种网络爬虫来抓取twitter页面,但由于twitter提高了它们的安全性——这也是不可能的 我该怎么做?请帮忙-我做这件事是我研究项目的一部分,我真的被困在这里了 我想找到一种方法,通过它我可以抓取Twitter网页来获取所需的信息
请帮忙 我将从下面的链接开始。这是可以做到的,但需要相当长的时间 考虑到贾斯汀·贝伯有40000000名追随者,因此使用一个代币就需要5天半的时间
40000000(关注者)/5000(通话中返回的记录)/15(15分钟内最多休息通话)/4(1小时内每隔15分钟)=133小时“Twitter提高了他们的安全性”,特别是因为他们不希望你这样做。。。如果你在一个研究项目中有效地使用了这些数据,为什么不试着联系他们并直接索取呢?(如果没有别的,你可能会被速率限制刺痛——每秒1个用户,需要两个半月才能获得600万用户的数据……)我正在做类似的事情。如果你已经解决了这个问题或者找到了解决方案,你会很乐意一起工作的。我使用它的原因当然不同,没有违法或不好的。我想找到合法帐户暂停以及youtube和FB。