Hive 带有MapReduce选项的HBase_Hive_Hbase

Hive 带有MapReduce选项的HBase

hive hbase

Hive 带有MapReduce选项的HBase,hive,hbase,Hive,Hbase,我是Hadoop的新手，最近安装了Hive和HBase 我在配置单元中创建了几个表，查询以MapReduce方式运行。另外，当我在HBase中说“get”时，它没有在MapReduce中运行，这就是为什么我认为它具有高延迟的原因我在这里几乎没有什么疑问如果我有一个需要处理实时流数据的应用程序，我应该使用什么-Hive或HBase 我是否可以使用MapReduce选项安装HBase，以便HBase中的get命令以MapReduce方式运行提前感谢HBase是一个数据库，它没有选择运行mapr

我是Hadoop的新手，最近安装了

Hive

和

HBase

我在配置单元中创建了几个表，查询以

MapReduce

方式运行。另外，当我在HBase中说“get”时，它没有在MapReduce中运行，这就是为什么我认为它具有高延迟的原因

我在这里几乎没有什么疑问

如果我有一个需要处理实时流数据的应用程序，我应该使用什么-

Hive

或

HBase

我是否可以使用

MapReduce

选项安装

HBase

，以便

HBase

中的

get

命令以

MapReduce

方式运行

提前感谢

HBase是一个数据库，它没有选择运行mapreduce来执行诸如get、scan、put等操作

如果您希望以mapreduce样式处理来自HBase的数据，则需要创建自定义map reduce作业，或使用其他一些分析工具，如Hive、Pig等

Hive是建立在Hadoop mapreduce之上的数据仓库平台。它可以从许多不同的来源读取数据，如HDFS文件、S3文件、HBase等

希望这对你有用

如果我有一个需要处理实时流数据的应用程序，我应该使用什么-Hive或HBase

蜂巢最适合批量处理的需要。我永远不会为了我的实时需要而喜欢它。正如您所注意到的，当您发出配置单元查询时，它首先转换为MapReduce作业，然后给出结果。这涉及到一些延迟

但这里真正的问题是如何处理实时流数据。HBase和Hive都是允许我们在现有Hadoop集群上存储数据的系统。当然，您可以在稍后阶段通过使用HBase API/Hive查询编写程序来处理数据。但这并不是对你的流媒体数据的实时处理，IMHO

当您说处理流式数据时，这意味着您打算在数据到达时动态处理数据，而不必存储数据（尽管您可以同时存储数据）。像这样的工具就是为了实现这一点。一定要看一看

是否可以使用MapReduce选项安装HBase，以便HBase中的get命令以MapReduce方式运行

HBase和MapReduce是两种不同的东西。像get和scan这样的操作是特定于HBase的，它们不能用作MapReduce作业（与Hive查询不同）。但是，您完全可以将HBase与MapReduce结合使用，从HBase表中获取/将数据放入HBase表中。有关更多详细信息，请参见

这就是我需要的。非常感谢你提供的信息。非常感谢。。这也很有帮助。