Cassandra 阿帕奇凤凰vs蜂巢星火

Cassandra 阿帕奇凤凰vs蜂巢星火,cassandra,hive,apache-spark,hbase,phoenix,Cassandra,Hive,Apache Spark,Hbase,Phoenix,接受SQL脚本作为输入的SQL转换速度更快/更容易的是什么:Spark SQL,它是Hive高延迟查询或Phoenix的速度层?如果是,怎么做?我需要对数据进行大量的升级/合并/分组。[hbase] 在Cassandra CQL之上是否有任何替代方案支持上述(以实时方式加入/分组) 因为我想利用MLlib,所以我很可能会产生火花。但是对于处理数据,我应该选择哪一个呢 谢谢, 克拉斯特 我更确信Hbase上的Phoenix将运行得更快 下面是测试的示例查询和PC要求 查询:从超过10M和100M行

接受SQL脚本作为输入的SQL转换速度更快/更容易的是什么:Spark SQL,它是Hive高延迟查询或Phoenix的速度层?如果是,怎么做?我需要对数据进行大量的升级/合并/分组。[hbase]

在Cassandra CQL之上是否有任何替代方案支持上述(以实时方式加入/分组)

因为我想利用MLlib,所以我很可能会产生火花。但是对于处理数据,我应该选择哪一个呢

谢谢, 克拉斯特 我更确信Hbase上的Phoenix将运行得更快

下面是测试的示例查询和PC要求 查询:从超过10M和100M行的表格中选择计数(1)。数据为5个窄列。区域服务器数量:4(HBase堆:10GB,处理器:6核@3.3GHz Xeon) 由于Phoenix使用HBASE客户端接口加载所有查询,并且仅使用查询引擎将sql任务映射到HBASE中的map reduce任务,因此(据我所知),您有几个选项

  • ApachePhoenix对于低延迟和中等大小的表(1M-100M行,但要注意有很多列的表)处理是一个很好的选择。对凤凰城来说,一个很好的优点是它很容易开始。我的公司已经建立了一个HBase集群(使用kerberos)。要使用Phoenix,我只需要HMaster URL、Hbase-site.xml和一个keytab就可以进行操作。非常快速的读取和写入是不错的(对我来说比较慢,因为我需要动态执行,所以我被迫使用Java客户端API,而不是批量加载)

  • 带火花的蜂巢也很棒。我不确定在凤凰城的表现有多好。因为Spark在内存中做的事情最多,所以我认为它应该很快。但是,我可以告诉您,如果您想将SQL访问作为某种API公开,那么使用spark将变得非常困难

  • Presto是一款很棒的产品,它通过SQL接口提供了火花般的处理能力,使您能够从多个源(Hive、Cassandra、MySQL等)互连数据


  • 希望这有帮助。

    问题是关于蜂巢火花。这个图表没有提到蜂巢是MR还是Spark。看起来比较的是Hive MR而不是Spark