GlusterFS作为Hadoop的后端_Hadoop_Glusterfs

GlusterFS作为Hadoop的后端

hadoop

GlusterFS作为Hadoop的后端,hadoop,glusterfs,Hadoop,Glusterfs,我已经看到redhat提出了一个可能的解决方案，它使用GlusterFS作为hadoop的后端。在这种情况下，您可以使用namenode/datanode体系结构，并用glusterfs替换它，同时您仍然具有Hadoop Mapreduce api兼容性只是想知道与本机HDF相比性能如何？真的准备好生产了吗？它也支持所有hadoop生态系统吗？e、 g.Solr Cloud、Spark、Impala等。免责声明：我为存储供应商工作。好。我对GlusterFS不太了解，但我可以在一天结束时谈论

我已经看到redhat提出了一个可能的解决方案，它使用GlusterFS作为hadoop的后端。在这种情况下，您可以使用namenode/datanode体系结构，并用glusterfs替换它，同时您仍然具有Hadoop Mapreduce api兼容性

只是想知道与本机HDF相比性能如何？真的准备好生产了吗？它也支持所有hadoop生态系统吗？e、 g.Solr Cloud、Spark、Impala等。

免责声明：我为存储供应商工作。 好。我对GlusterFS不太了解，但我可以在一天结束时谈论它，因为它是POSIX。它是并行文件系统，但我最近查看的基准测试表明，它的性能确实优于HDFS。但它绝对是一种可供生产使用的替代方案，为您的数据提供单一的名称空间（不再接收HDFS）

现在Hadoop生态系统的工作原理是什么？ 我在今天的制作中看到的是Spark、Hive和Hbase。依我看，Imapala需要HDFS的某些部分，这就是为什么它不能与POSIX FS一起工作，而事实并非如此。我做了一个快速测试，我能够创建数据库和所有东西，但我无法获取任何行

如果你需要进一步的帮助，请告诉我

你能更具体地解释一下为什么它优于HDFS吗？一些框架需要哪些HDFS部分，例如Impala。我看到的基准测试表明，Lustre与HDFS相比，查询执行时间更短。使用POSIX文件系统的整个想法主要集中在以下几点：1-跳过将数据摄取到HDFS的部分（如果数据集非常大，这可能会花费很长时间）。2-使用HDFS会损失大量磁盘容量，POSIX FS的实施依赖于企业RAID保护。对于Impala，我不确定代码的哪些部分需要HDFS，但我不知道到今天为止，任何Imapla都在POSIX FSX上运行。非常感谢您的解释。