Cassandra 阿帕奇凤凰vs蜂巢星火_Cassandra_Hive_Apache Spark_Hbase_Phoenix

Cassandra 阿帕奇凤凰vs蜂巢星火

cassandra hive apache-spark hbase

Cassandra 阿帕奇凤凰vs蜂巢星火,cassandra,hive,apache-spark,hbase,phoenix,Cassandra,Hive,Apache Spark,Hbase,Phoenix,接受SQL脚本作为输入的SQL转换速度更快/更容易的是什么：Spark SQL，它是Hive高延迟查询或Phoenix的速度层？如果是，怎么做？我需要对数据进行大量的升级/合并/分组。[hbase] 在Cassandra CQL之上是否有任何替代方案支持上述（以实时方式加入/分组）因为我想利用MLlib，所以我很可能会产生火花。但是对于处理数据，我应该选择哪一个呢谢谢，克拉斯特我更确信Hbase上的Phoenix将运行得更快下面是测试的示例查询和PC要求查询：从超过10M和100M行

接受SQL脚本作为输入的SQL转换速度更快/更容易的是什么：Spark SQL，它是Hive高延迟查询或Phoenix的速度层？如果是，怎么做？我需要对数据进行大量的升级/合并/分组。[hbase]

在Cassandra CQL之上是否有任何替代方案支持上述（以实时方式加入/分组）

因为我想利用MLlib，所以我很可能会产生火花。但是对于处理数据，我应该选择哪一个呢

谢谢，克拉斯特我更确信Hbase上的Phoenix将运行得更快

下面是测试的示例查询和PC要求查询：从超过10M和100M行的表格中选择计数（1）。数据为5个窄列。区域服务器数量：4（HBase堆：10GB，处理器：6核@3.3GHz Xeon）由于Phoenix使用HBASE客户端接口加载所有查询，并且仅使用查询引擎将sql任务映射到HBASE中的map reduce任务，因此（据我所知），您有几个选项

ApachePhoenix对于低延迟和中等大小的表（1M-100M行，但要注意有很多列的表）处理是一个很好的选择。对凤凰城来说，一个很好的优点是它很容易开始。我的公司已经建立了一个HBase集群（使用kerberos）。要使用Phoenix，我只需要HMaster URL、Hbase-site.xml和一个keytab就可以进行操作。非常快速的读取和写入是不错的（对我来说比较慢，因为我需要动态执行，所以我被迫使用Java客户端API，而不是批量加载）

带火花的蜂巢也很棒。我不确定在凤凰城的表现有多好。因为Spark在内存中做的事情最多，所以我认为它应该很快。但是，我可以告诉您，如果您想将SQL访问作为某种API公开，那么使用spark将变得非常困难

Presto是一款很棒的产品，它通过SQL接口提供了火花般的处理能力，使您能够从多个源（Hive、Cassandra、MySQL等）互连数据

希望这有帮助。

问题是关于蜂巢火花。这个图表没有提到蜂巢是MR还是Spark。看起来比较的是Hive MR而不是Spark