Apache spark 什么';这句话的意思是什么;“阶段”;关于流媒体场景的Spark UI

Apache spark 什么';这句话的意思是什么;“阶段”;关于流媒体场景的Spark UI,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在研究Spark流媒体,并试图监控和改进流媒体应用程序的性能。但我对以下问题感到困惑 Spark门户网站上“Spark流媒体”的每个阶段的含义是什么 应用程序 并非所有映射到任务的“转换”。以及如何针对映射任务进行“转换” 流式代码快照: val transformed = input.flatMap(i => processInput(i)) val aggregated = transformed.reduceByKeyAndWindow(reduce(_, _), Seconds

我正在研究Spark流媒体,并试图监控和改进流媒体应用程序的性能。但我对以下问题感到困惑

  • Spark门户网站上“Spark流媒体”的每个阶段的含义是什么 应用程序
  • 并非所有映射到任务的“转换”。以及如何针对映射任务进行“转换”
  • 流式代码快照

    val transformed = input.flatMap(i => processInput(i))
    val aggregated = transformed.reduceByKeyAndWindow(reduce(_, _), Seconds(aggregateWindowSizeInSeconds), Seconds(slidingIntervalInSeconds))
    val finalized = aggregated.mapValues(finalize(_))
    finalized
    
    (门户上仅出现Flatmap阶段。)

    Spark流媒体门户

    谢谢


    Tao

    Spark从您的源代码获取单个命令,然后将其优化为要在集群上执行的任务计划。这种优化的一个例子是:两个map调用传入,一个map任务传出。阶段是任务组之间的更高级别边界,定义为要跨越该边界,必须执行洗牌

    因此:

    • 您在RDD上调用的每个操作符都会导致操作和转换
    • 这些操作将导致运算符的DAG
    • DAG被编译成多个阶段
    • 每个阶段都作为一系列步骤执行 任务