Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 将Spark与Cassandra结合使用?_Apache Spark_Cassandra_Datastax Enterprise - Fatal编程技术网

Apache spark 将Spark与Cassandra结合使用?

Apache spark 将Spark与Cassandra结合使用?,apache-spark,cassandra,datastax-enterprise,Apache Spark,Cassandra,Datastax Enterprise,在我们当前的基础架构中,我们使用Cassandra集群作为后端数据库,通过Solr,我们使用web UI让客户在必要时对数据库执行读取查询 我被要求研究Spark,作为我们将来可以实现的东西,但我很难理解它将如何改进我们目前的工作 所以我的基本问题是: 1) Spark是否可以取代Solr来查询数据库,比如当用户在我们的网站上查找某些内容时 2) 只是一个一般的想法,需要什么类型的基础设施来改善我们目前的状况(5个Cassandra节点,所有这些节点都运行Solr)。 换句话说,我们只需要考虑构

在我们当前的基础架构中,我们使用Cassandra集群作为后端数据库,通过Solr,我们使用web UI让客户在必要时对数据库执行读取查询

我被要求研究Spark,作为我们将来可以实现的东西,但我很难理解它将如何改进我们目前的工作

所以我的基本问题是:

1) Spark是否可以取代Solr来查询数据库,比如当用户在我们的网站上查找某些内容时

2) 只是一个一般的想法,需要什么类型的基础设施来改善我们目前的状况(5个Cassandra节点,所有这些节点都运行Solr)。 换句话说,我们只需要考虑构建另一个仅包含Spark节点的集群

3) Spark节点能否与Cassandra在同一台物理机器上运行?我猜这是个坏主意,因为我对Spark最基本的理解是它在内存中完成一切

4) 有什么好的快速/基本资源可以用来开始计算Spark对我们有什么好处吗?我有机会学习税务学院的课程,所以我正在学习这些课程,只是想知道是否还有什么可以帮助我的研究

基本上,一旦我弄清楚它是什么,更重要的是如何/如果它是我们可以利用的优势,我将开始玩一些测试实例,但我应该首先熟悉基本知识。

1)不,Spark是一个批处理系统,Solr是实时索引解决方案。solr上的延迟将是亚秒,Spark作业将花费数分钟(或更多)。在任何情况下,Spark都不应该成为Solr的替代品

2) 我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据

3) Spark并不是在内存中做所有事情。根据您的用例,在与C*相同的机器上运行可能是一个好主意。这可以在从C*读取数据时考虑数据的局部性,并在表扫描时间上有很大帮助。我通常还建议对Spark执行器和C*节点进行托管

4) DS Academy 320课程可能是最好的资源

1)不,Spark是批处理系统,Solr是实时索引解决方案。solr上的延迟将是亚秒,Spark作业将花费数分钟(或更多)。在任何情况下,Spark都不应该成为Solr的替代品

2) 我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据

3) Spark并不是在内存中做所有事情。根据您的用例,在与C*相同的机器上运行可能是一个好主意。这可以在从C*读取数据时考虑数据的局部性,并在表扫描时间上有很大帮助。我通常还建议对Spark执行器和C*节点进行托管

4) DS Academy 320课程可能是最好的资源