使用Hadoop查询github数据_Hadoop_Github_Hdfs_Apache Pig_Bigdata

使用Hadoop查询github数据

hadoop github apache-pig

使用Hadoop查询github数据,hadoop,github,hdfs,apache-pig,bigdata,Hadoop,Github,Hdfs,Apache Pig,Bigdata,我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS？而且，他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据？浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上，您必须共享您的公钥，他们会将该密钥添加到他们的存储库中，然后您可以使用ssh。作为替代，您可以从链接下载他们的定期转储 Imp链接：为了处理实时数据，你不能使用猪，蜂巢。这些是批处理

我正在尝试使用hadoop查询ghtorrent API提供的GitHub数据。如何将如此多的数据4-5 TB注入HDFS？而且，他们的数据库是实时的。是否可以在hadoop中使用pig、hive、hbase等工具处理实时数据？

浏览演示文稿。它描述了如何连接到他们的MySql或MongoDb实例并获取数据。基本上，您必须共享您的公钥，他们会将该密钥添加到他们的存储库中，然后您可以使用ssh。作为替代，您可以从链接下载他们的定期转储

Imp链接：

为了处理实时数据，你不能使用猪，蜂巢。这些是批处理工具。考虑使用Apache Skp.