Hadoop 可以直接从文件加载拼花地板桌子吗?

Hadoop 可以直接从文件加载拼花地板桌子吗?,hadoop,cloudera-cdh,impala,parquet,Hadoop,Cloudera Cdh,Impala,Parquet,如果我有一个二进制数据文件(可以转换成csv格式),有没有办法直接从中加载拼花地板表?许多教程显示将csv文件加载到文本表,然后从文本表加载到拼花地板表。从效率的角度来看,是否有可能直接从二进制文件加载拼花地板表,就像我已经有的一样?理想情况下使用createexternaltable命令。 或者我需要先把它转换成csv文件?是否有任何文件格式限制 不幸的是,在Impala中无法读取自定义二进制格式。您应该将文件转换为csv,然后在现有csv文件上创建一个外部表作为临时表,最后插入到从临时csv

如果我有一个二进制数据文件(可以转换成csv格式),有没有办法直接从中加载拼花地板表?许多教程显示将csv文件加载到文本表,然后从文本表加载到拼花地板表。从效率的角度来看,是否有可能直接从二进制文件加载拼花地板表,就像我已经有的一样?理想情况下使用createexternaltable命令。
或者我需要先把它转换成csv文件?是否有任何文件格式限制

不幸的是,在Impala中无法读取自定义二进制格式。您应该将文件转换为csv,然后在现有csv文件上创建一个外部表作为临时表,最后插入到从临时csv表读取的最终拼花地板表中。有更多的信息和一些相关的例子。请参阅关于压缩小文件的部分,类似于此

我不知道如何将您的文件格式转换为CSV,但您可以考虑编写一个程序来将二进制格式转换为实木地板。例如,您可以编写一个MapReduce作业来编写拼花地板文件。下面是一个读取和写入拼花地板的示例:

昨天,我使用apache drill生成的拼花文件创建了一个外部表。该链接现在已经消失,但我在这里发现了类似的内容: