Hadoop 用于研究的大型开源数据集

Hadoop 用于研究的大型开源数据集,hadoop,dataset,hive,cloudera,impala,Hadoop,Dataset,Hive,Cloudera,Impala,请帮助我为数据挖掘研究项目找到一个海量数据集 如果你向我推荐任何搜索引擎数据Google/yahoo用户搜索历史或Wikipedia的用户浏览统计数据或twitter的用户推特数据集,那将非常有帮助 http://labrosa.ee.columbia.edu/millionsong/ 我正在开发hadoop框架和数据库,因此我希望每个表中有数百万条记录。这里是百万首歌曲数据集 http://labrosa.ee.columbia.edu/millionsong/ 如果你想提取推文,我建议你

请帮助我为数据挖掘研究项目找到一个海量数据集

如果你向我推荐任何搜索引擎数据Google/yahoo用户搜索历史或Wikipedia的用户浏览统计数据或twitter的用户推特数据集,那将非常有帮助

http://labrosa.ee.columbia.edu/millionsong/

我正在开发hadoop框架和数据库,因此我希望每个表中有数百万条记录。

这里是百万首歌曲数据集

http://labrosa.ee.columbia.edu/millionsong/
如果你想提取推文,我建议你使用推特的流媒体API


嘿,谢谢你。但如果你能向我推荐一些搜索引擎数据集或twitter推特数据集,那就太好了。因为我想进一步研究基于个人资料的网络个性化。这将帮助我挖掘用户的兴趣,我可以在搜索结果的工作。再次感谢。