Hadoop 具有6到7节点硬件配置的分布式Spark和HDFS群集

Hadoop 具有6到7节点硬件配置的分布式Spark和HDFS群集,hadoop,apache-spark,matrix,cassandra,hardware-infrastructure,Hadoop,Apache Spark,Matrix,Cassandra,Hardware Infrastructure,我计划为基础设施监控应用程序的趋势分析开发集群,我计划使用Spark分析故障趋势,使用Cassandra存储传入数据和分析数据。 考虑从大约25000台机器/服务器(可能在不同服务器上设置相同的应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/sec,我计划将其放入Cassandra表中,该表具有时间戳、服务器作为主键和应用程序,以及一些重要的矩阵作为集群键。我将在存储的信息上运行Spark作业,以进行性能矩阵故障趋势分析 说到这个问题,考虑到上述场景,我需要多少节点(机器)以及CP

我计划为基础设施监控应用程序的趋势分析开发集群,我计划使用Spark分析故障趋势,使用Cassandra存储传入数据和分析数据。 考虑从大约25000台机器/服务器(可能在不同服务器上设置相同的应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/sec,我计划将其放入Cassandra表中,该表具有时间戳、服务器作为主键和应用程序,以及一些重要的矩阵作为集群键。我将在存储的信息上运行Spark作业,以进行性能矩阵故障趋势分析


说到这个问题,考虑到上述场景,我需要多少节点(机器)以及CPU和内存方面的什么配置来启动集群。

Cassandra需要一个精心规划的数据模型才能让事情正常运行。在您拥有一个大型数据集之前,在这个阶段花时间进行规划是非常值得的,因为您可能会发现重新安排数据模型会做得更好

“一般”的经验法则是,根据查询来塑造模型,同时注意避免像真正大的行、大的删除、批处理等可能会带来巨大性能损失的事情

这些文档为您提供了一个良好的开端,您可能会发现它们很有用。我还建议使用该工具。您可以使用它将性能测试推送到Cassandra集群中,以检查延迟和任何性能问题。您也可以使用自己的模式,我个人认为这非常有用

如果您使用的是基于云的硬件,如AWS,则可以相对轻松地进行放大/缩小,并查看哪些最适合您。你不需要向卡桑德拉扔大的硬件,水平伸缩比垂直伸缩更容易


我假设您也将数据拉回到一个单独的spark集群中进行分析,这样这些节点将运行普通的Cassandra(更少的硬件规格)。但是,如果您使用的是Datastax企业版(您可以在spark“模式”下运行节点),那么您将需要更强大的硬件以及spark驱动程序、执行器等所需的额外负载。另一个好的文档链接是DSE

Cassandra需要一个精心规划的数据模型,以使事情运行良好。在您拥有一个大型数据集之前,在这个阶段花时间进行规划是非常值得的,因为您可能会发现重新安排数据模型会做得更好

“一般”的经验法则是,根据查询来塑造模型,同时注意避免像真正大的行、大的删除、批处理等可能会带来巨大性能损失的事情

这些文档为您提供了一个良好的开端,您可能会发现它们很有用。我还建议使用该工具。您可以使用它将性能测试推送到Cassandra集群中,以检查延迟和任何性能问题。您也可以使用自己的模式,我个人认为这非常有用

如果您使用的是基于云的硬件,如AWS,则可以相对轻松地进行放大/缩小,并查看哪些最适合您。你不需要向卡桑德拉扔大的硬件,水平伸缩比垂直伸缩更容易

我假设您也将数据拉回到一个单独的spark集群中进行分析,这样这些节点将运行普通的Cassandra(更少的硬件规格)。但是,如果您使用的是Datastax企业版(您可以在spark“模式”下运行节点),那么您将需要更强大的硬件以及spark驱动程序、执行器等所需的额外负载。另一个好的文档链接是DSE