猪进入Hbase需要很长时间

猪进入Hbase需要很长时间,hbase,apache-pig,Hbase,Apache Pig,嗨,我是hadoop的新成员 最近,我将大量文本文件放入HDFS中。 我想做的是读取这些文件并使用Pig(加载、存储)将它们放入HBase。 但是,我发现存储到HBase需要很长时间 以前有人遇到过类似的情况吗?如果是,如何解决这个问题 谢谢所用的时间取决于您拥有的节点数量,当然也取决于文件的大小。 我认为最好检查输入数据集的节点数/dfs大小。所需时间取决于您拥有的节点数以及文件的大小。 我认为最好检查输入数据集的节点数/dfs大小。我在使用HBasStorage时也面临同样的问题。实际上,H

嗨,我是hadoop的新成员

最近,我将大量文本文件放入HDFS中。 我想做的是读取这些文件并使用Pig(加载、存储)将它们放入HBase。 但是,我发现存储到HBase需要很长时间

以前有人遇到过类似的情况吗?如果是,如何解决这个问题


谢谢

所用的时间取决于您拥有的节点数量,当然也取决于文件的大小。
我认为最好检查输入数据集的节点数/dfs大小。

所需时间取决于您拥有的节点数以及文件的大小。
我认为最好检查输入数据集的节点数/dfs大小。

我在使用HBasStorage时也面临同样的问题。实际上,HBasStorage执行顺序PUT操作以将数据加载到HBase中。它不是一个真正的散装货。看看这个悬而未决的吉拉。

但在使用ImportTSV选项后,我得到了显著的性能差异。

批量装载包括三个步骤 1.Pig:从源读取数据,在HBASE表结构中格式化,加载到hdfs。 2.ImportTsv:准备通过completebulkload加载的存储文件。 3.completebulkload:将生成的存储文件移动到HBase表中。(就像被割过的虫子)


希望这是有用的:)

我在使用hbastorage时面临同样的问题。实际上,HBasStorage执行顺序PUT操作以将数据加载到HBase中。它不是一个真正的散装货。看看这个悬而未决的吉拉。

但在使用ImportTSV选项后,我得到了显著的性能差异。

批量装载包括三个步骤 1.Pig:从源读取数据,在HBASE表结构中格式化,加载到hdfs。 2.ImportTsv:准备通过completebulkload加载的存储文件。 3.completebulkload:将生成的存储文件移动到HBase表中。(就像被割过的虫子)


希望这有用:)

在我的例子中,有三个DataNode,每个文件大约15 MB。我尝试查看hbastorage.java,发现Pig使用put将数据存储到HBase中。是否有任何解决方案可以加快这部分操作?在我的例子中,有三个DataNode,每个文件大约15 MB。我尝试查看hbastorage.java,发现Pig使用put将数据存储到HBase中。有没有办法加快这一部分的行动?