Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/423.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 关于蜂巢的问题_Hadoop_Hive_Hdfs_Sqoop - Fatal编程技术网

Hadoop 关于蜂巢的问题

Hadoop 关于蜂巢的问题,hadoop,hive,hdfs,sqoop,Hadoop,Hive,Hdfs,Sqoop,我有这样的环境: 具有多个应用程序的Haddop环境(1个主环境,4个从环境): ambari,色调,蜂巢,sqoop,hdfs。。。生产中的服务器(单独的 来自hadoop)和mysql数据库 我的目标是: 优化在此mysql服务器上执行的查询,这些查询执行缓慢 今天执行 我做了什么: 我使用Sqoop将mysql数据导入HDFS 我的疑问是: 我无法使用配置单元在HDFS中直接进行选择 我是否必须将数据加载到配置单元并进行查询 如果将新数据输入mysql数据库,最好的方法是什么

我有这样的环境:

  • 具有多个应用程序的Haddop环境(1个主环境,4个从环境): ambari,色调,蜂巢,sqoop,hdfs。。。生产中的服务器(单独的 来自hadoop)和mysql数据库
我的目标是:

  • 优化在此mysql服务器上执行的查询,这些查询执行缓慢 今天执行
我做了什么:

  • 我使用Sqoop将mysql数据导入HDFS
我的疑问是:

  • 我无法使用配置单元在HDFS中直接进行选择
  • 我是否必须将数据加载到配置单元并进行查询
  • 如果将新数据输入mysql数据库,最好的方法是什么 获取此数据并将其插入HDFS,然后将其插入 又是蜂巢?(可能是实时的)

  • 提前感谢您

    您可以尝试Impala,在SQL查询的情况下,它比Hive快得多。您需要定义表,很可能需要指定一些分隔符、存储格式以及数据存储在HDFS上的位置(我不知道您存储的是什么类型的数据)。然后可以编写SQL查询,从HDFS获取数据


    我没有从关系数据库接收实时数据的经验,但是您可以尝试使用cron调度Sqoop作业。

    您可以尝试Impala,在SQL查询的情况下,它比Hive快得多。您需要定义表,很可能需要指定一些分隔符、存储格式以及数据存储在HDFS上的位置(我不知道您存储的是什么类型的数据)。然后可以编写SQL查询,从HDFS获取数据

    我没有从关系数据库摄取实时数据的经验,但是您可以尝试使用cron调度Sqoop作业

    我无法使用配置单元在HDFS中直接进行选择

    你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL

    我是否必须将数据加载到配置单元并进行查询

    对于外部表,您不需要在配置单元中加载数据;您的数据驻留在同一HDFS目录中

    如果将新数据输入mysql数据库,那么获取此数据的最佳方式是什么

    您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据(取决于增量模式)。您可以根据需要创建一个计划并安排它

    我无法使用配置单元在HDFS中直接进行选择

    你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL

    我是否必须将数据加载到配置单元并进行查询

    对于外部表,您不需要在配置单元中加载数据;您的数据驻留在同一HDFS目录中

    如果将新数据输入mysql数据库,那么获取此数据的最佳方式是什么


    您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据(取决于增量模式)。您可以根据需要创建并计划它。

    您也可以尝试使用
    --hive import
    来sqoop数据,而不是#1和#2。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息,请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙!除了#1和#2,您还可以尝试使用
    --hive import
    对数据进行sqoop。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息,请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙!谢谢你的关注!谢谢你的关注!