Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/github/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Hadoop查询github数据_Hadoop_Github_Hdfs_Apache Pig_Bigdata - Fatal编程技术网

使用Hadoop查询github数据

使用Hadoop查询github数据,hadoop,github,hdfs,apache-pig,bigdata,Hadoop,Github,Hdfs,Apache Pig,Bigdata,我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS?而且,他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据?浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上,您必须共享您的公钥,他们会将该密钥添加到他们的存储库中,然后您可以使用ssh。作为替代,您可以从链接下载他们的定期转储 Imp链接: 为了处理实时数据,你不能使用猪,蜂巢。这些是批处理

我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS?而且,他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据?

浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上,您必须共享您的公钥,他们会将该密钥添加到他们的存储库中,然后您可以使用ssh。作为替代,您可以从链接下载他们的定期转储

Imp链接:

为了处理实时数据,你不能使用猪,蜂巢。这些是批处理工具。考虑使用Apache Skp.