Performance HDFS与HBASE：哪一种在数百万个小文本文件上性能更好？_Performance_Hadoop_Hbase_Hdfs

Performance HDFS与HBASE：哪一种在数百万个小文本文件上性能更好？

performance hadoop hbase

Performance HDFS与HBASE：哪一种在数百万个小文本文件上性能更好？,performance,hadoop,hbase,hdfs,Performance,Hadoop,Hbase,Hdfs,如果我们有数百万个大小从几KB到几MB不等的小文本文件，那么HDF和HBASE中哪一个需要更少的处理时间？而且内存消耗更少？这是一个高层次的问题。缺少有关数据类型的信息。然而，一般来说，我们需要记住以下事项，同时决定在哪里存储？在HDFS或HBase中：由于我们的文件较小，质量较高，因此将其存储在HDFS中存在两个问题名称节点上的元数据将很高如果块大小（输入拆分大小）配置不正确，则为full 不会考虑数据局部性和并行处理的潜力利用。有关输入拆分和区块大小，请参考因此，除非您有充分

如果我们有数百万个大小从几KB到几MB不等的小文本文件，那么HDF和HBASE中哪一个需要更少的处理时间？

而且内存消耗更少？

这是一个高层次的问题。缺少有关数据类型的信息。然而，一般来说，我们需要记住以下事项，同时决定在哪里存储？在HDFS或HBase中：

由于我们的文件较小，质量较高，因此将其存储在HDFS中存在两个问题

名称节点上的元数据将很高

如果块大小（输入拆分大小）配置不正确，则为full 不会考虑数据局部性和并行处理的潜力利用。有关输入拆分和区块大小，请参考

因此，除非您有充分的理由这样做，否则实际上不可能将其存储在HDFS中

如果我们选择存储在HDFS中，我们是否可以将文件合并在一起，使其足够大到块大小？这对性能有何影响

然而，HBase克服了这些问题，因为它将数据存储在表中，也通过压缩方法存储数据。但在总结HBase作为存储平台之前，我们需要考虑以下几点：

手头的数据是否有适合HBase的模式？或者数据是否有模式

我们是否可以构造一个适用于可以跨HBase区域服务器分布的数据的行键

如果我们对所有这些问题都有答案，我们就可以得出结论。建议您在这些行中回顾您的数据，并做出仔细的决定。这不是一个解决方案，而是一种你应该思考和继续的方式或方向。

这是一个高层次的问题。缺少有关数据类型的信息。然而，一般来说，我们需要记住以下事项，同时决定在哪里存储？在HDFS或HBase中：

由于我们的文件较小，质量较高，因此将其存储在HDFS中存在两个问题

名称节点上的元数据将很高

如果块大小（输入拆分大小）配置不正确，则为full 不会考虑数据局部性和并行处理的潜力利用。有关输入拆分和区块大小，请参考

因此，除非您有充分的理由这样做，否则实际上不可能将其存储在HDFS中

如果我们选择存储在HDFS中，我们是否可以将文件合并在一起，使其足够大到块大小？这对性能有何影响

然而，HBase克服了这些问题，因为它将数据存储在表中，也通过压缩方法存储数据。但在总结HBase作为存储平台之前，我们需要考虑以下几点：

手头的数据是否有适合HBase的模式？或者数据是否有模式

我们是否可以构造一个适用于可以跨HBase区域服务器分布的数据的行键

如果我们对所有这些问题都有答案，我们就可以得出结论。建议您在这些行中回顾您的数据，并做出仔细的决定。这不是一个解决方案，而是您应该思考和继续的方式或方向。

如果您有数百万个从KBs到MBs不等的小文件，那么HDFS和MapReduce作业在处理数据方面是过度的

HBase是解决此问题的一种备选方案。但是您还有其他选择，如Hadoop归档文件（HAR）和序列文件

请参阅以下相关SE问题：

如果您有数以百万计从KBs到MBs不等的小文件，那么HDFS和MapReduce作业在处理数据方面是过度的

HBase是解决此问题的一种备选方案。但是您还有其他选择，如Hadoop归档文件（HAR）和序列文件

请参阅以下相关SE问题：

HDFS不适用于小文件。相关的HDFS不适用于小文件。相关的