Apache spark 将Spark与Cassandra结合使用?
在我们当前的基础架构中,我们使用Cassandra集群作为后端数据库,通过Solr,我们使用web UI让客户在必要时对数据库执行读取查询 我被要求研究Spark,作为我们将来可以实现的东西,但我很难理解它将如何改进我们目前的工作 所以我的基本问题是: 1) Spark是否可以取代Solr来查询数据库,比如当用户在我们的网站上查找某些内容时 2) 只是一个一般的想法,需要什么类型的基础设施来改善我们目前的状况(5个Cassandra节点,所有这些节点都运行Solr)。 换句话说,我们只需要考虑构建另一个仅包含Spark节点的集群 3) Spark节点能否与Cassandra在同一台物理机器上运行?我猜这是个坏主意,因为我对Spark最基本的理解是它在内存中完成一切 4) 有什么好的快速/基本资源可以用来开始计算Spark对我们有什么好处吗?我有机会学习税务学院的课程,所以我正在学习这些课程,只是想知道是否还有什么可以帮助我的研究 基本上,一旦我弄清楚它是什么,更重要的是如何/如果它是我们可以利用的优势,我将开始玩一些测试实例,但我应该首先熟悉基本知识。1)不,Spark是一个批处理系统,Solr是实时索引解决方案。solr上的延迟将是亚秒,Spark作业将花费数分钟(或更多)。在任何情况下,Spark都不应该成为Solr的替代品 2) 我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据 3) Spark并不是在内存中做所有事情。根据您的用例,在与C*相同的机器上运行可能是一个好主意。这可以在从C*读取数据时考虑数据的局部性,并在表扫描时间上有很大帮助。我通常还建议对Spark执行器和C*节点进行托管 4) DS Academy 320课程可能是最好的资源 1)不,Spark是批处理系统,Solr是实时索引解决方案。solr上的延迟将是亚秒,Spark作业将花费数分钟(或更多)。在任何情况下,Spark都不应该成为Solr的替代品 2) 我通常推荐在同一台机器上运行C*和Spark的第二个数据中心。这将通过复制从第一个数据中心获取数据 3) Spark并不是在内存中做所有事情。根据您的用例,在与C*相同的机器上运行可能是一个好主意。这可以在从C*读取数据时考虑数据的局部性,并在表扫描时间上有很大帮助。我通常还建议对Spark执行器和C*节点进行托管 4) DS Academy 320课程可能是最好的资源Apache spark 将Spark与Cassandra结合使用?,apache-spark,cassandra,datastax-enterprise,Apache Spark,Cassandra,Datastax Enterprise,在我们当前的基础架构中,我们使用Cassandra集群作为后端数据库,通过Solr,我们使用web UI让客户在必要时对数据库执行读取查询 我被要求研究Spark,作为我们将来可以实现的东西,但我很难理解它将如何改进我们目前的工作 所以我的基本问题是: 1) Spark是否可以取代Solr来查询数据库,比如当用户在我们的网站上查找某些内容时 2) 只是一个一般的想法,需要什么类型的基础设施来改善我们目前的状况(5个Cassandra节点,所有这些节点都运行Solr)。 换句话说,我们只需要考虑构