Hive 带有MapReduce选项的HBase

Hive 带有MapReduce选项的HBase,hive,hbase,Hive,Hbase,我是Hadoop的新手,最近安装了Hive和HBase 我在配置单元中创建了几个表,查询以MapReduce方式运行。另外,当我在HBase中说“get”时,它没有在MapReduce中运行,这就是为什么我认为它具有高延迟的原因 我在这里几乎没有什么疑问 如果我有一个需要处理实时流数据的应用程序,我应该使用什么-Hive或HBase 我是否可以使用MapReduce选项安装HBase,以便HBase中的get命令以MapReduce方式运行 提前感谢HBase是一个数据库,它没有选择运行mapr

我是Hadoop的新手,最近安装了
Hive
HBase

我在配置单元中创建了几个表,查询以
MapReduce
方式运行。另外,当我在HBase中说“get”时,它没有在MapReduce中运行,这就是为什么我认为它具有高延迟的原因

我在这里几乎没有什么疑问

  • 如果我有一个需要处理实时流数据的应用程序,我应该使用什么-
    Hive
    HBase

  • 我是否可以使用
    MapReduce
    选项安装
    HBase
    ,以便
    HBase
    中的
    get
    命令以
    MapReduce
    方式运行


  • 提前感谢

    HBase是一个数据库,它没有选择运行mapreduce来执行诸如get、scan、put等操作

    如果您希望以mapreduce样式处理来自HBase的数据,则需要创建自定义map reduce作业,或使用其他一些分析工具,如Hive、Pig等

    Hive是建立在Hadoop mapreduce之上的数据仓库平台。它可以从许多不同的来源读取数据,如HDFS文件、S3文件、HBase等

    希望这对你有用

  • 如果我有一个需要处理实时流数据的应用程序,我应该使用什么-Hive或HBase

    蜂巢最适合批量处理的需要。我永远不会为了我的实时需要而喜欢它。正如您所注意到的,当您发出配置单元查询时,它首先转换为MapReduce作业,然后给出结果。这涉及到一些延迟

    但这里真正的问题是如何处理实时流数据。HBase和Hive都是允许我们在现有Hadoop集群上存储数据的系统。当然,您可以在稍后阶段通过使用HBase API/Hive查询编写程序来处理数据。但这并不是对你的流媒体数据的实时处理,IMHO

    当您说处理流式数据时,这意味着您打算在数据到达时动态处理数据,而不必存储数据(尽管您可以同时存储数据)。像这样的工具就是为了实现这一点。一定要看一看

  • 是否可以使用MapReduce选项安装HBase,以便HBase中的get命令以MapReduce方式运行

    HBase和MapReduce是两种不同的东西。像getscan这样的操作是特定于HBase的,它们不能用作MapReduce作业(与Hive查询不同)。但是,您完全可以将HBase与MapReduce结合使用,从HBase表中获取/将数据放入HBase表中。有关更多详细信息,请参见


  • 这就是我需要的。非常感谢你提供的信息。非常感谢。。这也很有帮助。