Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能_Hadoop_Hive_Yarn_Azure Hdinsight

Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能

hadoop hive

Hadoop 如何提高HIVE中从非分区表加载数据到ORC分区表的性能,hadoop,hive,yarn,azure-hdinsight,Hadoop,Hive,Yarn,Azure Hdinsight,我不熟悉配置单元查询，我正在寻找从配置单元表检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了矢量化我们想从Hive表中进行报告，我从TEZ文档中读到，它可以用于实时报告。场景来自我的WEB应用程序，我想在UI上显示配置单元查询的结果从配置单元表中选择*，但对于任何查询，在配置单元命令提示符中至少需要20-60秒，即使配置单元表有60 GB的数据 1）有谁能告诉我如何通过查询配置单元表来显示实时报告，并在10-30秒内立即在UI上显示结果 2）我们发现的另一个问题是，最初我们在HD

我不熟悉配置单元查询，我正在寻找从配置单元表检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了矢量化

我们想从Hive表中进行报告，我从TEZ文档中读到，它可以用于实时报告。场景来自我的WEB应用程序，我想在UI上显示配置单元查询的结果从配置单元表中选择*，但对于任何查询，在配置单元命令提示符中至少需要20-60秒，即使配置单元表有60 GB的数据

1）有谁能告诉我如何通过查询配置单元表来显示实时报告，并在10-30秒内立即在UI上显示结果

2）我们发现的另一个问题是，最初我们在HDFS中有一个指向Blob/文件的未分区表，大小为60 GB，有200列，当我们将数据从未分区表转储到ORC表（ORC表已分区）时，需要3个多小时，是否有办法提高将数据转储到ORC表的性能

3）当我们使用bucketing查询非分区表时，插入到配置单元表和查询比ORC表上的select查询花费更少的时间，但是配置单元表中的记录数增加了，ORC表的select查询比使用bucket的表要好。是否有一种方法可以提高小型数据集的性能。由于这是初始阶段，我们每个月都会将50 GB的数据加载到配置单元表中。但它可以增加，我们希望提高将数据加载到Orc分区表的性能

4） TEZ支持交互式、更少的延迟和对报告的深入支持。如何使我的深入报告能够在人类响应时间内（即5-40秒）从配置单元获取数据（应该是交互式的）

我们使用4个节点进行测试，每个节点都有4个cpu核心、7 GB RAM和3个磁盘连接到每个VM

谢谢，

Mahender

为了提高向ORC表插入数据的速度，您可以尝试使用以下方法：

此外，您可能会看到，压缩是否也会对您有所帮助。例如：

SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.compress.intermediate = true;

希望有帮助

为了提高向ORC表插入数据的速度，您可以尝试使用以下方法：

此外，您可能会看到，压缩是否也会对您有所帮助。例如：

SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.compress.intermediate = true;

希望有帮助

首先。HIVE不适用于实时数据处理。无论数据有多小，查询都需要一段时间才能返回数据

hive的真正威力在于批量处理大量数据。

首先。HIVE不适用于实时数据处理。无论数据有多小，查询都需要一段时间才能返回数据

hive的真正威力在于批量处理大量数据。

thnx victor i将try@user145610，您是否已经得出如何加快向ORC表插入数据的结论？thnx victor i将try@user145610，您是否已经得出如何加快向ORC表插入数据的结论？SUnil，HDInsight/Hadoop中是否有任何方法可以将查询结果绑定到UI。（pz忽略HBase）。我听说过Node+hive，它在Microsoft Azure中可用吗。我们希望使用tez、spark和spark提供交互式查询，相信tez和spark在这一领域非常有前途。您可以尝试这些选项。通过TEZ，我无法实现实时绑定…还没有尝试Spark..让我用SparkUnil检查一下，HDInsight/Hadoop中是否有任何方法可以将查询结果绑定到UI。（pz忽略HBase）。我听说过Node+hive，它在Microsoft Azure中可用吗。我们希望使用tez、spark和spark提供交互式查询，相信tez和spark在这一领域非常有前途。你可以试试这些选项。通过TEZ我无法实现实时绑定…还没有尝试Spark…让我和Spark核实一下