Apache spark 如何在ApacheSpark作业中获得某种状态?
我想定期安排spark作业,该作业应处理新的输入文件(如果可用),并创建一些输出文件。如何最好地管理已成功和完全处理的文件的状态,以便后续spark作业运行不会再次拾取该文件 这是呼叫方(即调度员)的责任吗。 处理后是否应移动或重命名输入文件?Apache spark 如何在ApacheSpark作业中获得某种状态?,apache-spark,scheduler,Apache Spark,Scheduler,我想定期安排spark作业,该作业应处理新的输入文件(如果可用),并创建一些输出文件。如何最好地管理已成功和完全处理的文件的状态,以便后续spark作业运行不会再次拾取该文件 这是呼叫方(即调度员)的责任吗。 处理后是否应移动或重命名输入文件? 解决这些问题的推荐方法是什么?在我看来,有以下几种方法可以解决这个问题- 正如您所描述的那样,单独使用spark—在这里,您有两种选择。一种是调度程序或事件,它会在某个频率后触发,获取所有文件名并处理集群上的文件。要维护状态,您可以决定一些命名约定,例如
解决这些问题的推荐方法是什么?在我看来,有以下几种方法可以解决这个问题-
谢谢你的回答!