Apache spark 并发spark作业中的共享数据集或RDD
我有4个spark工作同时运行。这些作业是否可以共享和Apache spark 并发spark作业中的共享数据集或RDD,apache-spark,Apache Spark,我有4个spark工作同时运行。这些作业是否可以共享和RDD或数据集 您无法使用现有的spark API来完成此操作。 尽管很少有实现来解决这种特殊的用例 参考此 ApacheIgnite是另一个以内存为中心的分布式存储项目,它可以在作业之间共享RDD。 唯一适合您的是ApacheIgnite,它将具有与ApacheSpark类似的实现,并且易于理解,因为javardd、JavaPairdd、dataframe/dataset上的所有API都可以在该igniterdd上使用 最后,您可以在sc
RDD
或数据集
您无法使用现有的spark API来完成此操作。
尽管很少有实现来解决这种特殊的用例
参考此
ApacheIgnite是另一个以内存为中心的分布式存储项目,它可以在作业之间共享RDD。
唯一适合您的是ApacheIgnite,它将具有与ApacheSpark类似的实现,并且易于理解,因为javardd、JavaPairdd、dataframe/dataset上的所有API都可以在该igniterdd上使用 最后,您可以在scala和java中找到示例