Hadoop 在蜂巢中产生巨大效果的最佳方法是什么_Hadoop_Hive_Azure Hdinsight

Hadoop 在蜂巢中产生巨大效果的最佳方法是什么

hadoop hive

Hadoop 在蜂巢中产生巨大效果的最佳方法是什么,hadoop,hive,azure-hdinsight,Hadoop,Hive,Azure Hdinsight,我一直在尝试使用更大的结果集运行一些配置单元查询。我通常的方法是通过WebHCATAPI提交作业，并从生成的stdout文件中读取结果，或者在控制台上运行hive并将stdout管道传输到一个文件。但是，如果结果较大（使用了多个reducer），则标准输出为空或被截断我当前的解决方案是从结果创建一个新表createtable from SELECT，这引入了一个额外的步骤，如果我不想保留结果集，则将该表留待以后清理有谁有更好的方法来捕获这样一个配置单元查询的所有结果吗？您可以直接将数据写入h

我一直在尝试使用更大的结果集运行一些配置单元查询。我通常的方法是通过WebHCATAPI提交作业，并从生成的stdout文件中读取结果，或者在控制台上运行hive并将stdout管道传输到一个文件。但是，如果结果较大（使用了多个reducer），则标准输出为空或被截断

我当前的解决方案是从结果创建一个新表

createtable from SELECT

，这引入了一个额外的步骤，如果我不想保留结果集，则将该表留待以后清理

有谁有更好的方法来捕获这样一个配置单元查询的所有结果吗？

您可以直接将数据写入hdfs或本地文件系统上的目录，然后对这些文件执行您想要的操作。例如，要生成CSV文件：

INSERT OVERWRITE DIRECTORY '/hive/output/folder'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
SELECT ... FROM ...;

这与从SELECT创建表基本相同，但不必清理表。以下是完整的文档：