Apache spark 气流+；Kubernetes VS气流+；火花_Apache Spark_Kubernetes_Airflow

Apache spark 气流+；Kubernetes VS气流+；火花

apache-spark kubernetes airflow

Apache spark 气流+；Kubernetes VS气流+；火花,apache-spark,kubernetes,airflow,Apache Spark,Kubernetes,Airflow,就像我以前读过的一些文章。它说在新的Kubernetes版本中，已经包含了Spark功能。但是使用一些不同的方法，例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit 结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗这是一个更好的性能，因为Kubernetes有自动校准，而Spark没有需要一个Kubernetes方面的专家帮我解释一下。我对K

就像我以前读过的一些文章。它说在新的Kubernetes版本中，已经包含了Spark功能。但是使用一些不同的方法，例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit

结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗

这是一个更好的性能，因为Kubernetes有自动校准，而Spark没有

需要一个Kubernetes方面的专家帮我解释一下。我对Kubernetes、Spark和气流之类的东西还是个新手微微一笑：

多谢各位

在新的Kubernetes版本中，已包含Spark功能

我想你倒过来了。新版本的Spark可以在Kubernetes集群中运行任务

使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit

使用Kubernetes将允许您运行具有所需独立依赖项的容器

意义

使用BashOperator，必须将文件分发到某个共享文件系统或运行任务的所有节点。例如，

spark submit

必须在所有气流节点上可用

与Python类似，您可以输出一些包含pip/conda依赖环境的zip或egg文件

移除Spark并使用KubernetesPodOperator执行任务

仍然有充分的理由运行Spark with Airflow，但是您需要打包一个Spark驱动程序容器，以便在容器内针对Kubernetes群集执行

Spark submit

。这样，您只需要安装

docker

，而不需要Spark（以及所有依赖项）

Kubernetes有Spark没有的自动校准功能

Spark确实有另一个解决方案，可以帮助您使用Apache Livy on Kubernetes（PR:）和Airflow HttpOperator。

Kubernetes不是Spark的替代品，Airflow只是一种通过代码调度作业的方法，而不是Spark调度服务器。。。我认为您对这些工具实际提供的功能感到困惑，没有理由不将这三者结合起来