多个spark scala作业同时写入同一路径

多个spark scala作业同时写入同一路径,scala,apache-spark,Scala,Apache Spark,我有两个以上的Scala作业同时运行并写入同一位置,我希望在一个作业写入时锁定文件,在找到锁时暂停另一个作业。正在寻找使用Scala在spark2中实现的方法。作业是相互依赖的,即作业1写入的数据被作业2使用,还是反之亦然?不,任何一个作业写入输出就足够了,另一个作业如果运行稍晚就会跳过。但有时它们并行运行,并写入相同的数据两次。我想你是指Hive,拼花地板等很多问题都是在这上面发现的,所以可能不会有人去。也就是说,发布可能会改善情况,哪种版本的spark2?我使用的是spark2和scala

我有两个以上的Scala作业同时运行并写入同一位置,我希望在一个作业写入时锁定文件,在找到锁时暂停另一个作业。正在寻找使用Scala在spark2中实现的方法。

作业是相互依赖的,即作业1写入的数据被作业2使用,还是反之亦然?不,任何一个作业写入输出就足够了,另一个作业如果运行稍晚就会跳过。但有时它们并行运行,并写入相同的数据两次。我想你是指Hive,拼花地板等很多问题都是在这上面发现的,所以可能不会有人去。也就是说,发布可能会改善情况,哪种版本的spark2?我使用的是spark2和scala 2.11,输出是以拼花格式编写的。作业是相互依赖的,即作业1编写的数据由作业2使用,还是反之亦然?不,任何一个作业都可以写入输出,如果稍晚一点运行,另一个作业就会跳过。但有时它们并行运行,并将相同的数据写入两次。我猜你指的是蜂巢、拼花地板等。在这方面发现了许多问题,因此可能不太喜欢。也就是说,发行版可能会有所改进,spark2的哪个版本?我使用的是spark2和scala 2.11,输出是以拼花格式编写的。