使用Hadoop查询github数据
我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS?而且,他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据?浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上,您必须共享您的公钥,他们会将该密钥添加到他们的存储库中,然后您可以使用ssh。作为替代,您可以从链接下载他们的定期转储 Imp链接: 为了处理实时数据,你不能使用猪,蜂巢。这些是批处理工具。考虑使用Apache Skp.使用Hadoop查询github数据,hadoop,github,hdfs,apache-pig,bigdata,Hadoop,Github,Hdfs,Apache Pig,Bigdata,我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS?而且,他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据?浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上,您必须共享您的公钥,他们会将该密钥添加到他们的存储库中,然后您可以使用ssh。作为替代,您可以从链接下载他们的定期转储 Imp链接: 为了处理实时数据,你不能使用猪,蜂巢。这些是批处理