如何将csv文件导入不同架构中的hbase表
我最近开始研究hbase,但对它知之甚少。我有多个csv文件(大约20000个),我想将它们导入到HBase表中,这样每个文件都将是HBase中的一行,文件名将是rowkey。这意味着csv文件的每一行都是hbase中的一个单元格,我需要将它们放在一个struct数据类型(25个字段)中。不幸的是,我对这个问题一无所知。如果有人能给我一些开始的建议,我将不胜感激 以下是csv文件的示例:如何将csv文件导入不同架构中的hbase表,csv,hadoop,hbase,bulk-load,Csv,Hadoop,Hbase,Bulk Load,我最近开始研究hbase,但对它知之甚少。我有多个csv文件(大约20000个),我想将它们导入到HBase表中,这样每个文件都将是HBase中的一行,文件名将是rowkey。这意味着csv文件的每一行都是hbase中的一个单元格,我需要将它们放在一个struct数据类型(25个字段)中。不幸的是,我对这个问题一无所知。如果有人能给我一些开始的建议,我将不胜感激 以下是csv文件的示例: time, a, b, c, d, ..., x 0.000,98.600,115.700,54.200,7
time, a, b, c, d, ..., x
0.000,98.600,115.700,54.200,72.900,...,0.000
60.000,80.100,113.200,54.500,72.100,...,0.000
120.000,80.000,114.200,55.200,72.900,...,0.000
180.000,80.000,118.400,56.800,75.500,...,0.000
240.000,80.000,123.100,59.600,79.200,...,0.000
300.000,80.000,130.100,61.600,82.500,...,0.000
谢谢,Importtsv是一个实用程序,它将TSV或CSV格式的数据加载到HBase中 Importtsv有两种不同的用法:
上述命令将生成MapReduce作业,以将数据从CSV文件加载到HBase表。我建议对CSV文件使用配置单元,而不是HBase。从Hive,非常欢迎您加载Hbase表我以前从未想过,谢谢,我会研究一下。但我需要知道是否有办法先将数据加载到HBase中。当然,有办法。读取CSV文件的行,使用
HTable.put
命令将它们放入列族中(或使用Spark HBase连接器)。不过,目前还不清楚您的HBase表结构是什么样子的。我希望有一个列族(time),文件名是行键,然后对于每个行键和列,我希望将所有24个字段作为一个结构。我不知道现在是否清楚。你能告诉我一些细节吗?我应该从哪里开始?如果有任何教程或示例可以提供帮助,请将链接发送给我。对于Stackoverflow,要求提供链接和教程被视为离题。另外,我其实不知道Hbase