Hadoop 在蜂巢中产生巨大效果的最佳方法是什么

Hadoop 在蜂巢中产生巨大效果的最佳方法是什么,hadoop,hive,azure-hdinsight,Hadoop,Hive,Azure Hdinsight,我一直在尝试使用更大的结果集运行一些配置单元查询。我通常的方法是通过WebHCATAPI提交作业,并从生成的stdout文件中读取结果,或者在控制台上运行hive并将stdout管道传输到一个文件。但是,如果结果较大(使用了多个reducer),则标准输出为空或被截断 我当前的解决方案是从结果创建一个新表createtable from SELECT,这引入了一个额外的步骤,如果我不想保留结果集,则将该表留待以后清理 有谁有更好的方法来捕获这样一个配置单元查询的所有结果吗?您可以直接将数据写入h

我一直在尝试使用更大的结果集运行一些配置单元查询。我通常的方法是通过WebHCATAPI提交作业,并从生成的stdout文件中读取结果,或者在控制台上运行hive并将stdout管道传输到一个文件。但是,如果结果较大(使用了多个reducer),则标准输出为空或被截断

我当前的解决方案是从结果创建一个新表
createtable from SELECT
,这引入了一个额外的步骤,如果我不想保留结果集,则将该表留待以后清理


有谁有更好的方法来捕获这样一个配置单元查询的所有结果吗?

您可以直接将数据写入hdfs或本地文件系统上的目录,然后对这些文件执行您想要的操作。例如,要生成CSV文件:

INSERT OVERWRITE DIRECTORY '/hive/output/folder'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
SELECT ... FROM ...;
这与从SELECT创建表基本相同,但不必清理表。以下是完整的文档: