Apache spark 在SPARK for linux集群中作为资源管理器的纱线-Kubernetes内部和外部

Apache spark 在SPARK for linux集群中作为资源管理器的纱线-Kubernetes内部和外部,apache-spark,hadoop,kubernetes,google-kubernetes-engine,yarn,Apache Spark,Hadoop,Kubernetes,Google Kubernetes Engine,Yarn,如果我使用Kubernetes集群来运行spark,那么我将在spark中使用Kubernetes资源管理器 如果我使用Hadoop集群来运行spark,那么我将在spark中使用纱线资源管理器 但我的问题是,如果我在kebernetes中生成多个linux节点,并且使用其中一个节点作为spark maste,另外三个作为worker,那么我应该使用什么资源管理器?我可以在这里用纱线吗 第二个问题,对于任何4节点linux spark集群(不在kubernetes和hadoop,简单连接的lin

如果我使用Kubernetes集群来运行spark,那么我将在spark中使用Kubernetes资源管理器

如果我使用Hadoop集群来运行spark,那么我将在spark中使用纱线资源管理器

但我的问题是,如果我在kebernetes中生成多个linux节点,并且使用其中一个节点作为spark maste,另外三个作为worker,那么我应该使用什么资源管理器?我可以在这里用纱线吗

第二个问题,对于任何4节点linux spark集群(不在kubernetes和hadoop,简单连接的linux机器中),即使我没有hdfs,我可以在这里使用Thread作为资源管理器吗?如果不是,那么saprk应该使用什么资源管理器

谢谢

如果我在kebernetes中生成多个linux节点

那么你显然会使用kubernetes,因为它是可用的

对于任何4节点linux spark集群(不在kubernetes和hadoop中,简单连接的linux机器),即使我没有hdfs,我也可以在这里使用Thread吗

您可以,也可以使用Spark独立调度器。然而,Spark需要一个共享的文件系统来读取和写入数据,因此,尽管您可以尝试使用NFS或S3/GCS来实现这一点,但HDFS速度更快