Hadoop 云上大数据(Azure)

Hadoop 云上大数据(Azure),hadoop,apache-kafka,cloud,cloudera,hortonworks-data-platform,Hadoop,Apache Kafka,Cloud,Cloudera,Hortonworks Data Platform,我已经使用Hadoop和NoSQL产品在本地实现了生产bigdata解决方案,但从未在云上实现过 今天我需要转向云,因此我想知道BigData在云(主要是azure)上的已知(生产而不仅仅是POC)实现是什么: 完整的PaaS解决方案:EMR/HDINSIGHT+S3/AzureBlob(或Azure Datalake)+Kenesis/Azure事件中心 完整的IaaS发行版(CDH、HDP):IaaS上的Cloudera或Hortonworks+IaaS上的卡夫卡 混合PaaS+IaaS:S

我已经使用Hadoop和NoSQL产品在本地实现了生产bigdata解决方案,但从未在云上实现过

今天我需要转向云,因此我想知道BigData在云(主要是azure)上的已知(生产而不仅仅是POC)实现是什么:

  • 完整的PaaS解决方案:EMR/HDINSIGHT+S3/AzureBlob(或Azure Datalake)+Kenesis/Azure事件中心
  • 完整的IaaS发行版(CDH、HDP):IaaS上的Cloudera或Hortonworks+IaaS上的卡夫卡
  • 混合PaaS+IaaS:S3/AzureBlob上的冷数据,IaaS Hadoop上的热数据和交换,PaaS上的AD as PaaS+Azure事件中心

  • 致以最诚挚的问候

    除了上面所说的,我发现许多云上的生产实现都使用完整的PAAS和IAAS解决方案,其中一个更成熟的是基于S3和EMR的Netflix解决方案。

    这个列表将一直在扩大,明天下一个“最佳”将出现,使您得到的任何答案无效,那么,您是否有一个关于这种体系结构或这些工具的具体问题要问?我同意,我认为我们可以随着技术的发展/成熟而扩展。我的问题是要知道现在云上大数据的最佳实践是什么。这取决于你想管理自己的程度。与可以随时随地使用的微服务相比,混合云只会增加Hadoop的麻烦。我想说,与HDP/CDH相比,EMR、Qubole和Databricks在云技术方面更“最新”。大数据的问题是“数据重力”。除此之外,您似乎关心流媒体和物联网,因此您可以看看Confluent Cloud和Kafka Connect,因为Azure/Kenesis对于大量数据来说要昂贵得多。如果您需要类似的东西,Kafka Connect可以写入HDFS/S3/Azure Blob