Hortonworks:Hbase、Hive等用于哪种类型的数据

Hortonworks:Hbase、Hive等用于哪种类型的数据,hive,hbase,hortonworks-data-platform,Hive,Hbase,Hortonworks Data Platform,我想问一下,是否有人可以告诉我或让我参考一个描述在ApacheHadoop集群中存储数据的所有可能性的internet页面 我想知道的是:哪种类型的数据应该存储在哪种“系统”中。在“数据类型”下,我的意思是,例如: 实时数据(实时) 历史数据 定期从应用程序访问的数据 完整的问题不是在Hbase或Hive(“系统”)上减少,而是在Hdp下可用的所有问题 我希望有人能引导我找到答案。谢谢 我可以给你一个概述,但其余的内容你必须自己阅读 让我们从要存储在HDFS中的数据类型开始: 运动中的数据(表

我想问一下,是否有人可以告诉我或让我参考一个描述在ApacheHadoop集群中存储数据的所有可能性的internet页面

我想知道的是:哪种类型的数据应该存储在哪种“系统”中。在“数据类型”下,我的意思是,例如:

  • 实时数据(实时)
  • 历史数据
  • 定期从应用程序访问的数据
  • 完整的问题不是在Hbase或Hive(“系统”)上减少,而是在Hdp下可用的所有问题


    我希望有人能引导我找到答案。谢谢

    我可以给你一个概述,但其余的内容你必须自己阅读

    让我们从要存储在HDFS中的数据类型开始:

  • 运动中的数据(表示为实时数据)
  • 那么,如何获取实时数据呢?有可能吗?答案是否定的。总是会有延迟。但是,我们可以减少停机时间和数据处理时间。我们有HDF(Hortonworks数据流)。它处理运动中的数据。有许多服务提供实时数据流。你可以以卡夫卡、尼菲、斯托姆等为例。这些工具用于处理数据。您还需要以这样一种方式存储数据,以便能够在任何时候(约2秒)提取数据,因为我们使用HBase。HBase将数据存储在柱状结构中

  • 静止数据(历史数据/存储以备将来使用)
  • 因此,为了存储静态数据,不存在这样的问题。HDP(Hortonworks数据平台)为我们提供接收、存储和处理数据的服务。甚至我们也可以将HDF服务集成到HDP(在2.6版之前),这使得处理运动中的数据变得更容易。这里我们需要数据库来存储大量数据。但是,我们提供了HDFS(Hadoop分布式文件系统),它可以帮助我们存储任何类型的数据。但是,我们不仅希望存储数据,还希望在需要时立即获取数据。那么,我们打算怎么做呢?以结构化形式存储数据。为此我们提供了蜂箱和HBase。为了存储以TB为单位的大量数据,我们需要运行大量的进程,MapReduce、Thread、Spark、Kubernetes、Spark就是其中之一

    这是Hadoop中存储和处理数据的基本思想


    您可以随时从互联网上阅读。

    TM White的《Hadoop:权威指南》