HDInsight与Azure上的虚拟化Hadoop群集

HDInsight与Azure上的虚拟化Hadoop群集,azure,hadoop,azure-hdinsight,Azure,Hadoop,Azure Hdinsight,我正在研究使用Hadoop群集的两种备选方案,第一种是使用HDInsight(使用Blob或HDFS存储),第二种是在Microsoft Azure上部署一个功能强大的Windows服务器,并在其上运行HDP(Hortonwork数据处理)(使用虚拟化)。第二种选择给了我更多的灵活性,但是我感兴趣的是调查每种选择的开销。有什么想法吗?尤其是Blob存储在效率方面的效果如何?这是一个相当广泛的问题,因此“视情况而定”的答案在这里是合适的。当我与客户交谈时,我就是这样看待他们进行权衡的。一端是控制范

我正在研究使用Hadoop群集的两种备选方案,第一种是使用HDInsight(使用Blob或HDFS存储),第二种是在Microsoft Azure上部署一个功能强大的Windows服务器,并在其上运行HDP(Hortonwork数据处理)(使用虚拟化)。第二种选择给了我更多的灵活性,但是我感兴趣的是调查每种选择的开销。有什么想法吗?尤其是Blob存储在效率方面的效果如何?

这是一个相当广泛的问题,因此“视情况而定”的答案在这里是合适的。当我与客户交谈时,我就是这样看待他们进行权衡的。一端是控制范围,另一端是方便。您对部署哪个Linux发行版或Hadoop发行版有具体要求吗?然后,您将希望使用IaaS并简单地在那里部署。那太好了,你得到了很多控制,但是修补和操作仍然是你的责任

我们将HDInsight称为托管服务,我们的意思是,我们负责为您运行它(例如,我们在集群本身以及在集群上运行的应用程序上提供了SLA,而不仅仅是“我可以ping vm”)。我们操作集群、修补操作系统、修补Hadoop等等。因此,这里有很多便利,但是,我们不允许您选择哪个Linux发行版,也不允许您在那里拥有任意一组Hadoop位


从性能角度来看,HDInsight可以部署在任何Azure节点大小上,类似于IaaS VM(这是本周推出的一项新功能)。关于Blob效率的问题,您应该尝试这两种方法,看看您的想法。Blob store的好处在于,您可以获得更大的经济灵活性,如果集群只需要在一小块数据上运行,您可以在大量数据上部署一个小型集群(相比之下,将其全部放在HDFS中,在HDFS中,您需要所有的节点一直运行以适应所有数据)

我没有尝试过这两种选择,所以这只是一个评论而不是答案。也就是说,基于HDInsight是一项目标服务这一事实,如果它不是一个更具成本效益的选择,我会感到惊讶。对我来说,真正重要的是性能,而不是成本!那样的话,量量!