Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/performance/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Performance HDFS与HBASE:哪一种在数百万个小文本文件上性能更好?_Performance_Hadoop_Hbase_Hdfs - Fatal编程技术网

Performance HDFS与HBASE:哪一种在数百万个小文本文件上性能更好?

Performance HDFS与HBASE:哪一种在数百万个小文本文件上性能更好?,performance,hadoop,hbase,hdfs,Performance,Hadoop,Hbase,Hdfs,如果我们有数百万个大小从几KB到几MB不等的小文本文件,那么HDF和HBASE中哪一个需要更少的处理时间? 而且内存消耗更少?这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中: 由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题 名称节点上的元数据将很高 如果块大小(输入拆分大小)配置不正确,则为full 不会考虑数据局部性和并行处理的潜力 利用。有关输入拆分和 区块大小,请参考 因此,除非您有充分

如果我们有数百万个大小从几KB到几MB不等的小文本文件,那么HDF和HBASE中哪一个需要更少的处理时间?
而且内存消耗更少?

这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中:

由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题

  • 名称节点上的元数据将很高
  • 如果块大小(输入拆分大小)配置不正确,则为full 不会考虑数据局部性和并行处理的潜力 利用。有关输入拆分和 区块大小,请参考

    因此,除非您有充分的理由这样做,否则实际上不可能将其存储在HDFS中

  • 如果我们选择存储在HDFS中,我们是否可以将文件合并在一起,使其足够大到块大小?这对性能有何影响

    然而,HBase克服了这些问题,因为它将数据存储在表中,也通过压缩方法存储数据。但在总结HBase作为存储平台之前,我们需要考虑以下几点:

  • 手头的数据是否有适合HBase的模式?或者数据是否有模式
  • 我们是否可以构造一个适用于可以跨HBase区域服务器分布的数据的行键

  • 如果我们对所有这些问题都有答案,我们就可以得出结论。建议您在这些行中回顾您的数据,并做出仔细的决定。这不是一个解决方案,而是一种你应该思考和继续的方式或方向。

    这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中:

    由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题

  • 名称节点上的元数据将很高
  • 如果块大小(输入拆分大小)配置不正确,则为full 不会考虑数据局部性和并行处理的潜力 利用。有关输入拆分和 区块大小,请参考

    因此,除非您有充分的理由这样做,否则实际上不可能将其存储在HDFS中

  • 如果我们选择存储在HDFS中,我们是否可以将文件合并在一起,使其足够大到块大小?这对性能有何影响

    然而,HBase克服了这些问题,因为它将数据存储在表中,也通过压缩方法存储数据。但在总结HBase作为存储平台之前,我们需要考虑以下几点:

  • 手头的数据是否有适合HBase的模式?或者数据是否有模式
  • 我们是否可以构造一个适用于可以跨HBase区域服务器分布的数据的行键

  • 如果我们对所有这些问题都有答案,我们就可以得出结论。建议您在这些行中回顾您的数据,并做出仔细的决定。这不是一个解决方案,而是您应该思考和继续的方式或方向。

    如果您有数百万个从KBs到MBs不等的小文件,那么HDFS和MapReduce作业在处理数据方面是过度的

    HBase是解决此问题的一种备选方案。但是您还有其他选择,如Hadoop归档文件(HAR)序列文件

    请参阅以下相关SE问题:


    如果您有数以百万计从KBs到MBs不等的小文件,那么HDFS和MapReduce作业在处理数据方面是过度的

    HBase是解决此问题的一种备选方案。但是您还有其他选择,如Hadoop归档文件(HAR)序列文件

    请参阅以下相关SE问题:


    HDFS不适用于小文件。相关的HDFS不适用于小文件。相关的