Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/kubernetes/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 气流+;Kubernetes VS气流+;火花_Apache Spark_Kubernetes_Airflow - Fatal编程技术网

Apache spark 气流+;Kubernetes VS气流+;火花

Apache spark 气流+;Kubernetes VS气流+;火花,apache-spark,kubernetes,airflow,Apache Spark,Kubernetes,Airflow,就像我以前读过的一些文章。它说在新的Kubernetes版本中,已经包含了Spark功能。但是使用一些不同的方法,例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit 结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗 这是一个更好的性能,因为Kubernetes有自动校准,而Spark没有 需要一个Kubernetes方面的专家帮我解释一下。我对K

就像我以前读过的一些文章。它说在新的Kubernetes版本中,已经包含了Spark功能。但是使用一些不同的方法,例如使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit

结合气流+Kubernetes的最佳实践是消除火花并使用KubernetesPodOperator执行任务吗

这是一个更好的性能,因为Kubernetes有自动校准,而Spark没有

需要一个Kubernetes方面的专家帮我解释一下。我对Kubernetes、Spark和气流之类的东西还是个新手微微一笑:

多谢各位

在新的Kubernetes版本中,已包含Spark功能

我想你倒过来了。新版本的Spark可以在Kubernetes集群中运行任务

使用KubernetesPodOperator而不是使用BashOperator/PythonOperator来执行SparkSubmit

使用Kubernetes将允许您运行具有所需独立依赖项的容器

意义

  • 使用BashOperator,必须将文件分发到某个共享文件系统或运行任务的所有节点。例如,
    spark submit
    必须在所有气流节点上可用
  • 与Python类似,您可以输出一些包含pip/conda依赖环境的zip或egg文件
  • 移除Spark并使用KubernetesPodOperator执行任务

    仍然有充分的理由运行Spark with Airflow,但是您需要打包一个Spark驱动程序容器,以便在容器内针对Kubernetes群集执行
    Spark submit
    。这样,您只需要安装
    docker
    ,而不需要Spark(以及所有依赖项)

    Kubernetes有Spark没有的自动校准功能


    Spark确实有另一个解决方案,可以帮助您使用Apache Livy on Kubernetes(PR:)和Airflow HttpOperator。

    Kubernetes不是Spark的替代品,Airflow只是一种通过代码调度作业的方法,而不是Spark调度服务器。。。我认为您对这些工具实际提供的功能感到困惑,没有理由不将这三者结合起来