Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
GlusterFS作为Hadoop的后端_Hadoop_Glusterfs - Fatal编程技术网

GlusterFS作为Hadoop的后端

GlusterFS作为Hadoop的后端,hadoop,glusterfs,Hadoop,Glusterfs,我已经看到redhat提出了一个可能的解决方案,它使用GlusterFS作为hadoop的后端。在这种情况下,您可以使用namenode/datanode体系结构,并用glusterfs替换它,同时您仍然具有Hadoop Mapreduce api兼容性 只是想知道与本机HDF相比性能如何?真的准备好生产了吗?它也支持所有hadoop生态系统吗?e、 g.Solr Cloud、Spark、Impala等。免责声明:我为存储供应商工作。 好。我对GlusterFS不太了解,但我可以在一天结束时谈论

我已经看到redhat提出了一个可能的解决方案,它使用GlusterFS作为hadoop的后端。在这种情况下,您可以使用namenode/datanode体系结构,并用glusterfs替换它,同时您仍然具有Hadoop Mapreduce api兼容性


只是想知道与本机HDF相比性能如何?真的准备好生产了吗?它也支持所有hadoop生态系统吗?e、 g.Solr Cloud、Spark、Impala等。

免责声明:我为存储供应商工作。 好。我对GlusterFS不太了解,但我可以在一天结束时谈论它,因为它是POSIX。它是并行文件系统,但我最近查看的基准测试表明,它的性能确实优于HDFS。但它绝对是一种可供生产使用的替代方案,为您的数据提供单一的名称空间(不再接收HDFS)

现在Hadoop生态系统的工作原理是什么? 我在今天的制作中看到的是Spark、Hive和Hbase。依我看,Imapala需要HDFS的某些部分,这就是为什么它不能与POSIX FS一起工作,而事实并非如此。我做了一个快速测试,我能够创建数据库和所有东西,但我无法获取任何行


如果你需要进一步的帮助,请告诉我

你能更具体地解释一下为什么它优于HDFS吗?一些框架需要哪些HDFS部分,例如Impala。我看到的基准测试表明,Lustre与HDFS相比,查询执行时间更短。使用POSIX文件系统的整个想法主要集中在以下几点:1-跳过将数据摄取到HDFS的部分(如果数据集非常大,这可能会花费很长时间)。2-使用HDFS会损失大量磁盘容量,POSIX FS的实施依赖于企业RAID保护。对于Impala,我不确定代码的哪些部分需要HDFS,但我不知道到今天为止,任何Imapla都在POSIX FSX上运行。非常感谢您的解释。