如何将csv文件导入不同架构中的hbase表

如何将csv文件导入不同架构中的hbase表,csv,hadoop,hbase,bulk-load,Csv,Hadoop,Hbase,Bulk Load,我最近开始研究hbase,但对它知之甚少。我有多个csv文件(大约20000个),我想将它们导入到HBase表中,这样每个文件都将是HBase中的一行,文件名将是rowkey。这意味着csv文件的每一行都是hbase中的一个单元格,我需要将它们放在一个struct数据类型(25个字段)中。不幸的是,我对这个问题一无所知。如果有人能给我一些开始的建议,我将不胜感激 以下是csv文件的示例: time, a, b, c, d, ..., x 0.000,98.600,115.700,54.200,7

我最近开始研究hbase,但对它知之甚少。我有多个csv文件(大约20000个),我想将它们导入到HBase表中,这样每个文件都将是HBase中的一行,文件名将是rowkey。这意味着csv文件的每一行都是hbase中的一个单元格,我需要将它们放在一个struct数据类型(25个字段)中。不幸的是,我对这个问题一无所知。如果有人能给我一些开始的建议,我将不胜感激

以下是csv文件的示例:

time, a, b, c, d, ..., x
0.000,98.600,115.700,54.200,72.900,...,0.000
60.000,80.100,113.200,54.500,72.100,...,0.000
120.000,80.000,114.200,55.200,72.900,...,0.000
180.000,80.000,118.400,56.800,75.500,...,0.000
240.000,80.000,123.100,59.600,79.200,...,0.000
300.000,80.000,130.100,61.600,82.500,...,0.000

谢谢,

Importtsv是一个实用程序,它将TSV或CSV格式的数据加载到HBase中

Importtsv有两种不同的用法:

  • 通过Puts将HDFS中TSV或CSV格式的数据加载到HBase中
  • 正在准备通过completebulkload加载的存储文件
  • 将HDFS中TSV或CSV格式的数据加载到Hbase 下面的示例允许您将数据从hdfs文件加载到HBase表。必须将本地文件复制到hdfs文件夹,然后才能将其加载到HBase表

    $hbase org.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.separator=','-Dimporttsv.columns=hbase\u行\u键,个人\u数据:姓名,个人\u数据:城市,个人\u数据:年龄个人/测试
    上述命令将生成MapReduce作业,以将数据从CSV文件加载到HBase表。

    我建议对CSV文件使用配置单元,而不是HBase。从Hive,非常欢迎您加载Hbase表我以前从未想过,谢谢,我会研究一下。但我需要知道是否有办法先将数据加载到HBase中。当然,有办法。读取CSV文件的行,使用
    HTable.put
    命令将它们放入列族中(或使用Spark HBase连接器)。不过,目前还不清楚您的HBase表结构是什么样子的。我希望有一个列族(time),文件名是行键,然后对于每个行键和列,我希望将所有24个字段作为一个结构。我不知道现在是否清楚。你能告诉我一些细节吗?我应该从哪里开始?如果有任何教程或示例可以提供帮助,请将链接发送给我。对于Stackoverflow,要求提供链接和教程被视为离题。另外,我其实不知道Hbase