Hadoop 使用什么。。HDFS上的黑斑羚,Hbase上的黑斑羚,还是Hbase上的黑斑羚?

Hadoop 使用什么。。HDFS上的黑斑羚,Hbase上的黑斑羚,还是Hbase上的黑斑羚?,hadoop,hbase,hdfs,impala,Hadoop,Hbase,Hdfs,Impala,我正在进行概念验证任务。 任务是使用Hadoop技术实现我们产品的一个特性 该功能非常简单,我们有一个用户界面,可以让您插入有关“网络问题”的详细信息。 有关此问题的所有详细信息都将被捕获并插入到Oracle DB的表中。 然后,我们处理此表中的数据并计算健康分数 我必须使用Hadoop而不是传统的Db,所以我的问题是要做什么? HDFS上的黑斑羚?或 黑斑羚在Hbase上?或 Hbase 我正在使用ClouderaVM来实现POC 据我所知,Hbase是NoSQL分布式数据库,实际上是HDFS

我正在进行概念验证任务。 任务是使用Hadoop技术实现我们产品的一个特性

该功能非常简单,我们有一个用户界面,可以让您插入有关“网络问题”的详细信息。 有关此问题的所有详细信息都将被捕获并插入到Oracle DB的表中。 然后,我们处理此表中的数据并计算健康分数

我必须使用Hadoop而不是传统的Db,所以我的问题是要做什么? HDFS上的黑斑羚?或 黑斑羚在Hbase上?或 Hbase

我正在使用ClouderaVM来实现POC

据我所知,Hbase是NoSQL分布式数据库,实际上是HDFS上的一层,它提供java API来访问数据。 Impala是一个工具,它还提供JDBC访问,通过Hbase或直接通过HDFS访问数据。
我对hadoop很陌生,能找个人帮忙吗

好吧,这取决于几件事,比如你将要执行的处理类型、期望的响应时间等。但是看看你在这里写的东西,HBase似乎很好。我现在还不需要黑斑羚。HBase API很好,可以满足您的大部分需求

我的意思是,最好一开始就保持简单,只有在真正需要的时候才添加工具。同样的道理在这里也适用。如果您发现HBase API无法达到此目的,那么您肯定可以将Impala添加到堆栈中


尽管如此,有一件事你应该牢记在心。HBase是一个NoSQL数据库,不遵循RDBMS惯例和术语。所以,一开始你可能会觉得有点奇怪。最好记住这一点,然后继续进行,因为您必须以一种与RDBMS模式设计风格完全不同的方式设计模式。

您能介绍一下您的一些需求吗?例如,您的一些查询。HBase旨在通过密钥快速访问。Impala设计用于在几秒钟内运行SQL语句。它们是不同的东西,可以一起使用。嗯,到目前为止我还没有确切的疑问。但要求是,正如我所说,我们创建一个大约有10-15列的表。此表中的每一行表示一个网络问题。然后,我们经常在此表上运行select查询,并使用此表中一列的值,将其输入到将计算健康评分的算法中。网络问题的插入也可能是随机和频繁的。。