Amazon web services 如何使用不同类型的从属设备建立spark群集_Amazon Web Services_Apache Spark_Amazon Ec2

Amazon web services 如何使用不同类型的从属设备建立spark群集

amazon-web-services apache-spark amazon-ec2

Amazon web services 如何使用不同类型的从属设备建立spark群集,amazon-web-services,apache-spark,amazon-ec2,Amazon Web Services,Apache Spark,Amazon Ec2,我对spark是个新手。现在，我正在尝试看看是否有可能用不同的ec2实例类型的从属服务器设置spark cluster。我想这样做的原因是我在aws帐户上对不同的ec2实例类型有不同的限制。如果我能用所有可用的ec2实例运行spark作业，那就太好了。我到处搜索过（google、stackoverflow等），但人们似乎认为ec2类型的从节点总是相同的（不过我知道驱动节点的类型可能不同）。请让我知道，如果你需要更多的澄清谢谢你的建议我会联系AWS并提高我的限制，这样您就不会有这个问题您将面

我对spark是个新手。现在，我正在尝试看看是否有可能用不同的ec2实例类型的从属服务器设置spark cluster。我想这样做的原因是我在aws帐户上对不同的ec2实例类型有不同的限制。如果我能用所有可用的ec2实例运行spark作业，那就太好了。我到处搜索过（google、stackoverflow等），但人们似乎认为ec2类型的从节点总是相同的（不过我知道驱动节点的类型可能不同）。请让我知道，如果你需要更多的澄清

谢谢你的建议

我会联系AWS并提高我的限制，这样您就不会有这个问题

您将面临的问题是Hadoop将假定所有节点都具有相同的可用资源。这主要是指记忆。如果您运行大量需要大量内存的作业，您将看到不断的失败。否则，您将需要为适合任何节点的较小作业配置hadoop。这将意味着更大的作业永远不会运行

如果可以选择具有相同内存的实例，则可以将问题最小化

除非你是配置Hadoop的专家（或者想成为专家），否则我不会这么做。对于每种类型的节点，请使用完全相同的实例类型。

非常感谢您的评论！我刚刚发现了一些（贴在下面）似乎很有希望的东西。另外，从资源利用率的角度来看，spark不支持所谓的“异构”集群是没有意义的，因为我们不能假设人们总是可以得到相同类型的机器。理想情况下，spark应该能够根据其规格自动计算出每个从属节点上要运行多少个执行器。这在编程上是绝对可行的。您使用Spark的群集管理器是什么？