Apache spark SparkSession appName和getOrCreate函数是什么意思?

Apache spark SparkSession appName和getOrCreate函数是什么意思?,apache-spark,pyspark,Apache Spark,Pyspark,我正在运行上述spark repo的示例代码 什么是 from pyspark.ml.linalg import Vectors from pyspark.ml.stat import Correlation from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession \ .builder \ .appName("C

我正在运行上述spark repo的示例代码

什么是

from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import Correlation
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("CorrelationExample") \
        .getOrCreate()

    # $example on$
    data = [(Vectors.sparse(4, [(0, 1.0), (3, -2.0)]),),
            (Vectors.dense([4.0, 5.0, 0.0, 3.0]),),
            (Vectors.dense([6.0, 7.0, 0.0, 8.0]),),
            (Vectors.sparse(4, [(0, 9.0), (3, 1.0)]),)]
    df = spark.createDataFrame(data, ["features"])

    r1 = Correlation.corr(df, "features").head()
    print("Pearson correlation matrix:\n" + str(r1[0]))

    r2 = Correlation.corr(df, "features", "spearman").head()
    print("Spearman correlation matrix:\n" + str(r2[0]))
    # $example off$

    spark.stop()

你是说这里?appName在这里的用途是什么?我不明白为什么我们需要给spark会话一个appName。

appName
是应用程序名,您可以在spark UI上看到它。(当您在集群模式下spark submit时,它会被
--name
覆盖),主要用于将您的应用程序与其他应用程序分离

getOrCreate
将获取现有SparkSession,或者,如果没有现有SparkSession,则根据生成器中设置的选项创建一个新SparkSession

spark = SparkSession \
        .builder \
        .appName("CorrelationExample") \
        .getOrCreate()