Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/259.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能_Hadoop_Hive_Yarn_Azure Hdinsight - Fatal编程技术网

Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能

Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能,hadoop,hive,yarn,azure-hdinsight,Hadoop,Hive,Yarn,Azure Hdinsight,我不熟悉配置单元查询,我正在寻找从配置单元表检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了矢量化 我们想从Hive表中进行报告,我从TEZ文档中读到,它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示配置单元查询的结果从配置单元表中选择*,但对于任何查询,在配置单元命令提示符中至少需要20-60秒,即使配置单元表有60 GB的数据 1) 有谁能告诉我如何通过查询配置单元表来显示实时报告,并在10-30秒内立即在UI上显示结果 2) 我们发现的另一个问题是,最初我们在HD

我不熟悉配置单元查询,我正在寻找从配置单元表检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了矢量化

我们想从Hive表中进行报告,我从TEZ文档中读到,它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示配置单元查询的结果从配置单元表中选择*,但对于任何查询,在配置单元命令提示符中至少需要20-60秒,即使配置单元表有60 GB的数据

1) 有谁能告诉我如何通过查询配置单元表来显示实时报告,并在10-30秒内立即在UI上显示结果

2) 我们发现的另一个问题是,最初我们在HDFS中有一个指向Blob/文件的未分区表,大小为60 GB,有200列,当我们将数据从未分区表转储到ORC表(ORC表已分区)时,需要3个多小时,是否有办法提高将数据转储到ORC表的性能

3) 当我们使用bucketing查询非分区表时,插入到配置单元表和查询比ORC表上的select查询花费更少的时间,但是配置单元表中的记录数增加了,ORC表的select查询比使用bucket的表要好。是否有一种方法可以提高小型数据集的性能。由于这是初始阶段,我们每个月都会将50 GB的数据加载到配置单元表中。但它可以增加,我们希望提高将数据加载到Orc分区表的性能

4) TEZ支持交互式、更少的延迟和对报告的深入支持。如何使我的深入报告能够在人类响应时间内(即5-40秒)从配置单元获取数据(应该是交互式的)

我们使用4个节点进行测试,每个节点都有4个cpu核心、7 GB RAM和3个磁盘连接到每个VM

谢谢,
Mahender

为了提高向ORC表插入数据的速度,您可以尝试使用以下方法:

此外,您可能会看到,压缩是否也会对您有所帮助。例如:

SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.compress.intermediate = true;

希望有帮助

为了提高向ORC表插入数据的速度,您可以尝试使用以下方法:

此外,您可能会看到,压缩是否也会对您有所帮助。例如:

SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.compress.intermediate = true;

希望有帮助

首先。HIVE不适用于实时数据处理。无论数据有多小,查询都需要一段时间才能返回数据


hive的真正威力在于批量处理大量数据。

首先。HIVE不适用于实时数据处理。无论数据有多小,查询都需要一段时间才能返回数据


hive的真正威力在于批量处理大量数据。

thnx victor i将try@user145610,您是否已经得出如何加快向ORC表插入数据的结论?thnx victor i将try@user145610,您是否已经得出如何加快向ORC表插入数据的结论?SUnil,HDInsight/Hadoop中是否有任何方法可以将查询结果绑定到UI。(pz忽略HBase)。我听说过Node+hive,它在Microsoft Azure中可用吗。我们希望使用tez、spark和spark提供交互式查询,相信tez和spark在这一领域非常有前途。您可以尝试这些选项。通过TEZ,我无法实现实时绑定…还没有尝试Spark..让我用SparkUnil检查一下,HDInsight/Hadoop中是否有任何方法可以将查询结果绑定到UI。(pz忽略HBase)。我听说过Node+hive,它在Microsoft Azure中可用吗。我们希望使用tez、spark和spark提供交互式查询,相信tez和spark在这一领域非常有前途。你可以试试这些选项。通过TEZ我无法实现实时绑定…还没有尝试Spark…让我和Spark核实一下