Hadoop 关于蜂巢的问题
我有这样的环境:Hadoop 关于蜂巢的问题,hadoop,hive,hdfs,sqoop,Hadoop,Hive,Hdfs,Sqoop,我有这样的环境: 具有多个应用程序的Haddop环境(1个主环境,4个从环境): ambari,色调,蜂巢,sqoop,hdfs。。。生产中的服务器(单独的 来自hadoop)和mysql数据库 我的目标是: 优化在此mysql服务器上执行的查询,这些查询执行缓慢 今天执行 我做了什么: 我使用Sqoop将mysql数据导入HDFS 我的疑问是: 我无法使用配置单元在HDFS中直接进行选择 我是否必须将数据加载到配置单元并进行查询 如果将新数据输入mysql数据库,最好的方法是什么
- 具有多个应用程序的Haddop环境(1个主环境,4个从环境): ambari,色调,蜂巢,sqoop,hdfs。。。生产中的服务器(单独的 来自hadoop)和mysql数据库
- 优化在此mysql服务器上执行的查询,这些查询执行缓慢 今天执行
- 我使用Sqoop将mysql数据导入HDFS
提前感谢您您可以尝试Impala,在SQL查询的情况下,它比Hive快得多。您需要定义表,很可能需要指定一些分隔符、存储格式以及数据存储在HDFS上的位置(我不知道您存储的是什么类型的数据)。然后可以编写SQL查询,从HDFS获取数据
我没有从关系数据库接收实时数据的经验,但是您可以尝试使用cron调度Sqoop作业。您可以尝试Impala,在SQL查询的情况下,它比Hive快得多。您需要定义表,很可能需要指定一些分隔符、存储格式以及数据存储在HDFS上的位置(我不知道您存储的是什么类型的数据)。然后可以编写SQL查询,从HDFS获取数据 我没有从关系数据库摄取实时数据的经验,但是您可以尝试使用cron调度Sqoop作业 我无法使用配置单元在HDFS中直接进行选择 你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL 我是否必须将数据加载到配置单元并进行查询 对于外部表,您不需要在配置单元中加载数据;您的数据驻留在同一HDFS目录中 如果将新数据输入mysql数据库,那么获取此数据的最佳方式是什么 您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据(取决于增量模式)。您可以根据需要创建一个计划并安排它 我无法使用配置单元在HDFS中直接进行选择 你可以。在指定hdfs位置的配置单元中创建。然后您可以对其执行任何HQL 我是否必须将数据加载到配置单元并进行查询 对于外部表,您不需要在配置单元中加载数据;您的数据驻留在同一HDFS目录中 如果将新数据输入mysql数据库,那么获取此数据的最佳方式是什么
您可以使用Sqoop实现这一点。它将只获取新添加/更新的数据(取决于增量模式)。您可以根据需要创建并计划它。您也可以尝试使用
--hive import
来sqoop数据,而不是#1和#2。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息,请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙!除了#1和#2,您还可以尝试使用--hive import
对数据进行sqoop。您的数据将立即可用于Hive和Impala。更多关于一步引入数据并能够使用更快的Impala查询数据的信息,请参阅OP。答案以通常更快的拼花格式引入数据。感谢您的关注@索拉。卡罗尔很乐意帮忙!谢谢你的关注!谢谢你的关注!