Apache spark 将Spark与Cassandra结合使用？_Apache Spark_Cassandra_Datastax Enterprise

Apache spark 将Spark与Cassandra结合使用？

apache-spark cassandra

Apache spark 将Spark与Cassandra结合使用？,apache-spark,cassandra,datastax-enterprise,Apache Spark,Cassandra,Datastax Enterprise,在我们当前的基础架构中，我们使用Cassandra集群作为后端数据库，通过Solr，我们使用web UI让客户在必要时对数据库执行读取查询我被要求研究Spark，作为我们将来可以实现的东西，但我很难理解它将如何改进我们目前的工作所以我的基本问题是： 1） Spark是否可以取代Solr来查询数据库，比如当用户在我们的网站上查找某些内容时 2）只是一个一般的想法，需要什么类型的基础设施来改善我们目前的状况（5个Cassandra节点，所有这些节点都运行Solr）。换句话说，我们只需要考虑构

在我们当前的基础架构中，我们使用Cassandra集群作为后端数据库，通过Solr，我们使用web UI让客户在必要时对数据库执行读取查询

我被要求研究Spark，作为我们将来可以实现的东西，但我很难理解它将如何改进我们目前的工作

所以我的基本问题是：

1） Spark是否可以取代Solr来查询数据库，比如当用户在我们的网站上查找某些内容时

2）只是一个一般的想法，需要什么类型的基础设施来改善我们目前的状况（5个Cassandra节点，所有这些节点都运行Solr）。换句话说，我们只需要考虑构建另一个仅包含Spark节点的集群

3） Spark节点能否与Cassandra在同一台物理机器上运行？我猜这是个坏主意，因为我对Spark最基本的理解是它在内存中完成一切

4）有什么好的快速/基本资源可以用来开始计算Spark对我们有什么好处吗？我有机会学习税务学院的课程，所以我正在学习这些课程，只是想知道是否还有什么可以帮助我的研究

基本上，一旦我弄清楚它是什么，更重要的是如何/如果它是我们可以利用的优势，我将开始玩一些测试实例，但我应该首先熟悉基本知识。

1）不，Spark是一个批处理系统，Solr是实时索引解决方案。solr上的延迟将是亚秒，Spark作业将花费数分钟（或更多）。在任何情况下，Spark都不应该成为Solr的替代品

2）我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据

3） Spark并不是在内存中做所有事情。根据您的用例，在与C*相同的机器上运行可能是一个好主意。这可以在从C*读取数据时考虑数据的局部性，并在表扫描时间上有很大帮助。我通常还建议对Spark执行器和C*节点进行托管

4） DS Academy 320课程可能是最好的资源

1）不，Spark是批处理系统，Solr是实时索引解决方案。solr上的延迟将是亚秒，Spark作业将花费数分钟（或更多）。在任何情况下，Spark都不应该成为Solr的替代品

2）我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据

4） DS Academy 320课程可能是最好的资源