Hadoop 关于蜂巢的问题_Hadoop_Hive_Hdfs_Sqoop

Hadoop 关于蜂巢的问题

hadoop hive

Hadoop 关于蜂巢的问题,hadoop,hive,hdfs,sqoop,Hadoop,Hive,Hdfs,Sqoop,我有这样的环境：具有多个应用程序的Haddop环境（1个主环境，4个从环境）： ambari，色调，蜂巢，sqoop，hdfs。。。生产中的服务器（单独的来自hadoop）和mysql数据库我的目标是：优化在此mysql服务器上执行的查询，这些查询执行缓慢今天执行我做了什么：我使用Sqoop将mysql数据导入HDFS 我的疑问是：我无法使用配置单元在HDFS中直接进行选择我是否必须将数据加载到配置单元并进行查询如果将新数据输入mysql数据库，最好的方法是什么

我有这样的环境：

具有多个应用程序的Haddop环境（1个主环境，4个从环境）： ambari，色调，蜂巢，sqoop，hdfs。。。生产中的服务器（单独的来自hadoop）和mysql数据库

我的目标是：

优化在此mysql服务器上执行的查询，这些查询执行缓慢今天执行

我做了什么：

我使用Sqoop将mysql数据导入HDFS

我的疑问是：

我无法使用配置单元在HDFS中直接进行选择

我是否必须将数据加载到配置单元并进行查询

如果将新数据输入mysql数据库，最好的方法是什么获取此数据并将其插入HDFS，然后将其插入又是蜂巢？（可能是实时的）

提前感谢您

您可以尝试Impala，在SQL查询的情况下，它比Hive快得多。您需要定义表，很可能需要指定一些分隔符、存储格式以及数据存储在HDFS上的位置（我不知道您存储的是什么类型的数据）。然后可以编写SQL查询，从HDFS获取数据

我没有从关系数据库接收实时数据的经验，但是您可以尝试使用cron调度Sqoop作业。

我没有从关系数据库摄取实时数据的经验，但是您可以尝试使用cron调度Sqoop作业

我无法使用配置单元在HDFS中直接进行选择

你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL

我是否必须将数据加载到配置单元并进行查询

对于外部表，您不需要在配置单元中加载数据；您的数据驻留在同一HDFS目录中

如果将新数据输入mysql数据库，那么获取此数据的最佳方式是什么

您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据（取决于增量模式）。您可以根据需要创建一个计划并安排它

我无法使用配置单元在HDFS中直接进行选择

你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL

我是否必须将数据加载到配置单元并进行查询

对于外部表，您不需要在配置单元中加载数据；您的数据驻留在同一HDFS目录中

如果将新数据输入mysql数据库，那么获取此数据的最佳方式是什么

您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据（取决于增量模式）。您可以根据需要创建并计划它。

您也可以尝试使用

--hive import

来sqoop数据，而不是#1和#2。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息，请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙！除了#1和#2，您还可以尝试使用

--hive import

对数据进行sqoop。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息，请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙！谢谢你的关注！谢谢你的关注！