Database 查询配置单元处理的大量数据
假设我在HDFS中有大约10-20GB的数据作为配置单元表。这是在几个Map Reduce作业并连接两个独立的数据集之后获得的。我需要让这个用户可以查询。我有什么选择Database 查询配置单元处理的大量数据,database,hadoop,hive,bigdata,Database,Hadoop,Hive,Bigdata,假设我在HDFS中有大约10-20GB的数据作为配置单元表。这是在几个Map Reduce作业并连接两个独立的数据集之后获得的。我需要让这个用户可以查询。我有什么选择 用于将数据从HDFS传输到RDS,如Postgresql。但我想避免在数据传输上花费太多时间。我刚刚在同一AWS区域使用Sqoop测试了HDFS->RDS,800mb的数据需要4-8分钟。因此,您可以想象~60gb的数据将是无法管理的。这将是我最后的选择 根据用户请求直接从我的Web服务器查询配置单元。我从来没有像这样使用过蜂箱的
id time cat1 cat2 cat3 metrics[200]
A123 1234212133 12 ABC 24 4,55,231,34,556,123....(~200)
.
.
.
(时间就是时代)
我的查询如下所示:
id time cat1 cat2 cat3 metrics[200]
A123 1234212133 12 ABC 24 4,55,231,34,556,123....(~200)
.
.
.
按cat1从tablename组中选择cat1、corr(度量[2]、度量[3])、corr(度量[2]、度量[4])、corr(度量[2]、度量[5])、corr(度量[2]、度量[6])代码>
我需要相关函数,这就是我选择postgresql而不是MySQL的原因。您在以下位置有相关函数:
corr(第1列,第2列)
返回组中一对数字列的皮尔逊相关系数。您只需通过odbc连接到hiveserver端口并执行查询即可。
以下是一个例子:
蜂巢用户体验(hue)有一个蜂蜡查询编辑器,专门设计用于向熟悉SQL的最终用户公开蜂巢。这样,他们就可以对驻留在配置单元中的数据运行特别查询,而无需将其移动到其他位置。您可以在此处看到蜂蜡查询编辑器的示例:
这对你有用吗?从上面的问题中我可以理解的是,你有一些数据(20GB)存储在hdfs中并使用hive。现在,您希望访问这些数据以执行某种统计功能,如相关性和其他功能
- 您在配置单元中具有执行关联的函数李>
- 否则,您可以使用RHive直接将R连接到hive,甚至可以使用datasource将excel连接到hive李>
- 另一个解决方案是安装配置单元编辑器附带的色调,您可以在其中直接查询配置单元
我意识到这是可能的,但这是好的做法吗?我从来没有听说过蜂箱被这样使用。当然。我认为这是使用蜂箱的主要方式。配置单元应该向用户和机器公开,以便从远程服务器执行ETL和分析等。用户通常通过Hue或任何支持ODBC和JDBC的查询软件(如DBVisualizer)访问它。此外,使用JDBC,您可以从Java访问它,并创建通过配置单元实现ETL作业的软件。以上所有这些都是很常见的。但请看一看这一点:。表示配置单元不是为在线事务处理而设计的,不提供实时查询
。想法?这意味着hive不支持事务(现在在0.13中有点支持),并且只要您使用map reduce,这是正确的,您就不会得到实时查询,因为存在恒定的开销。这并不意味着你不应该查询,只是它是为更具分析性和健壮性的查询而构建的。是的,我知道这一点,但我主要想知道这样使用蜂巢是否是一种好的做法。。。