Hadoop 管理报告,当我们的数据库是Cassandra…Spark或Solr…或两者兼而有之时?

Hadoop 管理报告,当我们的数据库是Cassandra…Spark或Solr…或两者兼而有之时?,hadoop,solr,apache-spark,cassandra,apache-hive,Hadoop,Solr,Apache Spark,Cassandra,Apache Hive,我的数据库是Cassandra(datastax enterprise=>linux)。由于它不支持group by、aggregate等报告,根据其基本原理,使用Cassandra绝对不是一个好的决定。我在谷歌上搜索了这个赤字,发现了一些结果 但我真的很困惑Hive单独使用其他表Solr更适合全文搜索等。还有Spark…它对分析很有用,但是,我不知道它最终是否会使用Hadoop 我会有很多报告,至少需要索引和分组。但是我不想使用额外的表,这会增加开销。另外,我是.Net(而不是Java)开发人

我的数据库是Cassandra(datastax enterprise=>linux)。由于它不支持group by、aggregate等报告,根据其基本原理,使用Cassandra绝对不是一个好的决定。我在谷歌上搜索了这个赤字,发现了一些结果

但我真的很困惑Hive单独使用其他表Solr更适合全文搜索等。还有Spark…它对分析很有用,但是,我不知道它最终是否会使用Hadoop


我会有很多报告,至少需要索引和分组。但是我不想使用额外的表,这会增加开销。另外,我是.Net(而不是Java)开发人员,我的应用程序也基于.Net Framework

我不确定您的问题是什么,您的困惑是可以理解的,因为Cassandra和DSE有很多问题

  • 您正确地指出,Cassandra不支持您希望用于报告的任何聚合或分组功能
  • Solr(DSE搜索)用于对存储在Cassandra中的数据进行即席和全文搜索。一次只能在一张桌子上使用
  • Spark(DSE Analytics)提供分析功能,如Map Reduce以及筛选和联接表的功能。但这不是实时完成的,因为根据数据负载,数据的处理和洗牌可能会很昂贵
  • Spark不使用Hadoop。它执行许多相同的任务,但在许多情况下效率更高,因为它允许在内存中对数据进行分布式处理
由于您使用的是DataStax Enterprise,因此优势在于您已内置到Solr(DSE搜索)和Spark(DSE分析)的连接器,以提供即席查询和数据分析


因为我不知道你的确切报告要求,所以很难给你一个具体的建议。如果您能提供关于您将运行哪种报告(计划报告与临时报告等)的更多详细信息,我可能会为您提供更多帮助。

应用程序。有很多用户。它将有计划的和临时的报告。它应该定期做一些报告:每天,每月,每四个月,每年,为管理员,还应该能够支持特别报告请求,为用户。