Hadoop 具有6到7节点硬件配置的分布式Spark和HDFS群集_Hadoop_Apache Spark_Matrix_Cassandra_Hardware Infrastructure

Hadoop 具有6到7节点硬件配置的分布式Spark和HDFS群集

hadoop apache-spark matrix cassandra

Hadoop 具有6到7节点硬件配置的分布式Spark和HDFS群集,hadoop,apache-spark,matrix,cassandra,hardware-infrastructure,Hadoop,Apache Spark,Matrix,Cassandra,Hardware Infrastructure,我计划为基础设施监控应用程序的趋势分析开发集群，我计划使用Spark分析故障趋势，使用Cassandra存储传入数据和分析数据。考虑从大约25000台机器/服务器（可能在不同服务器上设置相同的应用程序）收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/sec，我计划将其放入Cassandra表中，该表具有时间戳、服务器作为主键和应用程序，以及一些重要的矩阵作为集群键。我将在存储的信息上运行Spark作业，以进行性能矩阵故障趋势分析说到这个问题，考虑到上述场景，我需要多少节点（机器）以及CP

我计划为基础设施监控应用程序的趋势分析开发集群，我计划使用Spark分析故障趋势，使用Cassandra存储传入数据和分析数据。考虑从大约25000台机器/服务器（可能在不同服务器上设置相同的应用程序）收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/sec，我计划将其放入Cassandra表中，该表具有时间戳、服务器作为主键和应用程序，以及一些重要的矩阵作为集群键。我将在存储的信息上运行Spark作业，以进行性能矩阵故障趋势分析

说到这个问题，考虑到上述场景，我需要多少节点（机器）以及CPU和内存方面的什么配置来启动集群。

Cassandra需要一个精心规划的数据模型才能让事情正常运行。在您拥有一个大型数据集之前，在这个阶段花时间进行规划是非常值得的，因为您可能会发现重新安排数据模型会做得更好

“一般”的经验法则是，根据查询来塑造模型，同时注意避免像真正大的行、大的删除、批处理等可能会带来巨大性能损失的事情

这些文档为您提供了一个良好的开端，您可能会发现它们很有用。我还建议使用该工具。您可以使用它将性能测试推送到Cassandra集群中，以检查延迟和任何性能问题。您也可以使用自己的模式，我个人认为这非常有用

如果您使用的是基于云的硬件，如AWS，则可以相对轻松地进行放大/缩小，并查看哪些最适合您。你不需要向卡桑德拉扔大的硬件，水平伸缩比垂直伸缩更容易

我假设您也将数据拉回到一个单独的spark集群中进行分析，这样这些节点将运行普通的Cassandra（更少的硬件规格）。但是，如果您使用的是Datastax企业版（您可以在spark“模式”下运行节点），那么您将需要更强大的硬件以及spark驱动程序、执行器等所需的额外负载。另一个好的文档链接是DSE

Cassandra需要一个精心规划的数据模型，以使事情运行良好。在您拥有一个大型数据集之前，在这个阶段花时间进行规划是非常值得的，因为您可能会发现重新安排数据模型会做得更好

“一般”的经验法则是，根据查询来塑造模型，同时注意避免像真正大的行、大的删除、批处理等可能会带来巨大性能损失的事情