Apache spark 气流+;Kubernetes VS气流+;火花
就像我以前读过的一些文章。它说在新的Kubernetes版本中,已经包含了Spark功能。但是使用一些不同的方法,例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit 结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗 这是一个更好的性能,因为Kubernetes有自动校准,而Spark没有 需要一个Kubernetes方面的专家帮我解释一下。我对Kubernetes、Spark和气流之类的东西还是个新手微微一笑: 多谢各位 在新的Kubernetes版本中,已包含Spark功能 我想你倒过来了。新版本的Spark可以在Kubernetes集群中运行任务 使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit 使用Kubernetes将允许您运行具有所需独立依赖项的容器 意义Apache spark 气流+;Kubernetes VS气流+;火花,apache-spark,kubernetes,airflow,Apache Spark,Kubernetes,Airflow,就像我以前读过的一些文章。它说在新的Kubernetes版本中,已经包含了Spark功能。但是使用一些不同的方法,例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit 结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗 这是一个更好的性能,因为Kubernetes有自动校准,而Spark没有 需要一个Kubernetes方面的专家帮我解释一下。我对K
spark submit
必须在所有气流节点上可用李>
Spark submit
。这样,您只需要安装docker
,而不需要Spark(以及所有依赖项)
Kubernetes有Spark没有的自动校准功能
Spark确实有另一个解决方案,可以帮助您使用Apache Livy on Kubernetes(PR:)和Airflow HttpOperator。Kubernetes不是Spark的替代品,Airflow只是一种通过代码调度作业的方法,而不是Spark调度服务器。。。我认为您对这些工具实际提供的功能感到困惑,没有理由不将这三者结合起来