Performance HDFS与HBASE:哪一种在数百万个小文本文件上性能更好?
如果我们有数百万个大小从几KB到几MB不等的小文本文件,那么HDF和HBASE中哪一个需要更少的处理时间?Performance HDFS与HBASE:哪一种在数百万个小文本文件上性能更好?,performance,hadoop,hbase,hdfs,Performance,Hadoop,Hbase,Hdfs,如果我们有数百万个大小从几KB到几MB不等的小文本文件,那么HDF和HBASE中哪一个需要更少的处理时间? 而且内存消耗更少?这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中: 由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题 名称节点上的元数据将很高 如果块大小(输入拆分大小)配置不正确,则为full 不会考虑数据局部性和并行处理的潜力 利用。有关输入拆分和 区块大小,请参考 因此,除非您有充分
而且内存消耗更少?这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中: 由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题
如果我们对所有这些问题都有答案,我们就可以得出结论。建议您在这些行中回顾您的数据,并做出仔细的决定。这不是一个解决方案,而是一种你应该思考和继续的方式或方向。这是一个高层次的问题。缺少有关数据类型的信息。然而,一般来说,我们需要记住以下事项,同时决定在哪里存储?在HDFS或HBase中: 由于我们的文件较小,质量较高,因此将其存储在HDFS中存在两个问题
如果我们对所有这些问题都有答案,我们就可以得出结论。建议您在这些行中回顾您的数据,并做出仔细的决定。这不是一个解决方案,而是您应该思考和继续的方式或方向。如果您有数百万个从KBs到MBs不等的小文件,那么HDFS和MapReduce作业在处理数据方面是过度的 HBase是解决此问题的一种备选方案。但是您还有其他选择,如Hadoop归档文件(HAR)和序列文件 请参阅以下相关SE问题:
如果您有数以百万计从KBs到MBs不等的小文件,那么HDFS和MapReduce作业在处理数据方面是过度的 HBase是解决此问题的一种备选方案。但是您还有其他选择,如Hadoop归档文件(HAR)和序列文件 请参阅以下相关SE问题:
HDFS不适用于小文件。相关的HDFS不适用于小文件。相关的