Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
抓取Twitter用户和追随者数据_Twitter_Web Crawler_Social Networking_Twitter4j - Fatal编程技术网

抓取Twitter用户和追随者数据

抓取Twitter用户和追随者数据,twitter,web-crawler,social-networking,twitter4j,Twitter,Web Crawler,Social Networking,Twitter4j,我有一个庞大的推特用户数据库(约600万)。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等 我想用这些建立一个用户关注者列表。基本上我想创建另一个表,它将有两列- 1) 用户ID(我拥有的用户ID) 2) 追随者ID(ID,用分号分隔-此用户所有追随者的ID) 例如:如果id为001的用户被id为002003的用户跟踪,则记录如下所示- 用户ID-001 跟随者ID-002;003 我希望最好使用Java实现这一点,但我也对其他语言持开放态度 我试着使用twitter4j——一个Jav

我有一个庞大的推特用户数据库(约600万)。我有用户ID、登录句柄、他们最近的推文、联系方式、位置等

我想用这些建立一个用户关注者列表。基本上我想创建另一个表,它将有两列- 1) 用户ID(我拥有的用户ID) 2) 追随者ID(ID,用分号分隔-此用户所有追随者的ID)

例如:如果id为001的用户被id为002003的用户跟踪,则记录如下所示-

用户ID-001 跟随者ID-002;003

我希望最好使用Java实现这一点,但我也对其他语言持开放态度

我试着使用twitter4j——一个Java库来获取推文、用户等信息——但它对每天API调用的数量有限制。 使用twitter搜索或restapi是不可能的,因为它没有给我特定用户的追随者的id

我的教授给了我另一个建议——抓取推特的网页。 例如,如果一个用户句柄是xxx,那么我需要抓取下面的链接-

获取此网页并解析HTML以获取关注者ID。我用Firebug查看了网页,我可以看到所有追随者的ID

这里的问题是——如何为我拥有的600万用户做到这一点?(我有句柄,所以我只需要抓取上面提到的链接,用下一个句柄替换xxx)


我试图使用Crawler4J——一种网络爬虫来抓取twitter页面,但由于twitter提高了它们的安全性——这也是不可能的

我该怎么做?请帮忙-我做这件事是我研究项目的一部分,我真的被困在这里了

我想找到一种方法,通过它我可以抓取Twitter网页来获取所需的信息


请帮忙

我将从下面的链接开始。这是可以做到的,但需要相当长的时间

考虑到贾斯汀·贝伯有40000000名追随者,因此使用一个代币就需要5天半的时间


40000000(关注者)/5000(通话中返回的记录)/15(15分钟内最多休息通话)/4(1小时内每隔15分钟)=133小时

“Twitter提高了他们的安全性”,特别是因为他们不希望你这样做。。。如果你在一个研究项目中有效地使用了这些数据,为什么不试着联系他们并直接索取呢?(如果没有别的,你可能会被速率限制刺痛——每秒1个用户,需要两个半月才能获得600万用户的数据……)我正在做类似的事情。如果你已经解决了这个问题或者找到了解决方案,你会很乐意一起工作的。我使用它的原因当然不同,没有违法或不好的。我想找到合法帐户暂停以及youtube和FB。