Hadoop 管理报告，当我们的数据库是Cassandra…Spark或Solr…或两者兼而有之时？_Hadoop_Solr_Apache Spark_Cassandra_Apache Hive

Hadoop 管理报告，当我们的数据库是Cassandra…Spark或Solr…或两者兼而有之时？

hadoop solr apache-spark cassandra

Hadoop 管理报告，当我们的数据库是Cassandra…Spark或Solr…或两者兼而有之时？,hadoop,solr,apache-spark,cassandra,apache-hive,Hadoop,Solr,Apache Spark,Cassandra,Apache Hive,我的数据库是Cassandra（datastax enterprise=>linux）。由于它不支持group by、aggregate等报告，根据其基本原理，使用Cassandra绝对不是一个好的决定。我在谷歌上搜索了这个赤字，发现了一些结果但我真的很困惑Hive单独使用其他表Solr更适合全文搜索等。还有Spark…它对分析很有用，但是，我不知道它最终是否会使用Hadoop 我会有很多报告，至少需要索引和分组。但是我不想使用额外的表，这会增加开销。另外，我是.Net（而不是Java）开发人

我的数据库是Cassandra（datastax enterprise=>linux）。由于它不支持group by、aggregate等报告，根据其基本原理，使用Cassandra绝对不是一个好的决定。我在谷歌上搜索了这个赤字，发现了一些结果

但我真的很困惑Hive单独使用其他表Solr更适合全文搜索等。还有Spark…它对分析很有用，但是，我不知道它最终是否会使用Hadoop

我会有很多报告，至少需要索引和分组。但是我不想使用额外的表，这会增加开销。另外，我是.Net（而不是Java）开发人员，我的应用程序也基于.Net Framework。

我不确定您的问题是什么，您的困惑是可以理解的，因为Cassandra和DSE有很多问题

您正确地指出，Cassandra不支持您希望用于报告的任何聚合或分组功能
Solr（DSE搜索）用于对存储在Cassandra中的数据进行即席和全文搜索。一次只能在一张桌子上使用
Spark（DSE Analytics）提供分析功能，如Map Reduce以及筛选和联接表的功能。但这不是实时完成的，因为根据数据负载，数据的处理和洗牌可能会很昂贵
Spark不使用Hadoop。它执行许多相同的任务，但在许多情况下效率更高，因为它允许在内存中对数据进行分布式处理

由于您使用的是DataStax Enterprise，因此优势在于您已内置到Solr（DSE搜索）和Spark（DSE分析）的连接器，以提供即席查询和数据分析

因为我不知道你的确切报告要求，所以很难给你一个具体的建议。如果您能提供关于您将运行哪种报告（计划报告与临时报告等）的更多详细信息，我可能会为您提供更多帮助。

应用程序。有很多用户。它将有计划的和临时的报告。它应该定期做一些报告：每天，每月，每四个月，每年，为管理员，还应该能够支持特别报告请求，为用户。