Apache spark 如何使用超光速子在Spark作业之间共享数据_Apache Spark_Alluxio

Apache spark 如何使用超光速子在Spark作业之间共享数据

apache-spark

Apache spark 如何使用超光速子在Spark作业之间共享数据,apache-spark,alluxio,Apache Spark,Alluxio,我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说 Tachyon是一个开源的以内存为中心的分布式存储系统，能够跨群集作业以内存速度实现可靠的数据共享但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。我不认为您需要明确地这样做，Alluxio将帮助您管理数据共享假设您有两个spark作业A和B，它们被配置为从Alluxio获取数据假设Alluxio中没有数据，作业A和作业B成批执行。当作业A运行时，Alluxio将首先从UFS获取

我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说

Tachyon是一个开源的以内存为中心的分布式存储系统，能够跨群集作业以内存速度实现可靠的数据共享

但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。

我不认为您需要明确地这样做，

Alluxio

将帮助您管理数据共享

假设您有两个spark作业A和B，它们被配置为从

Alluxio

获取数据

假设

Alluxio

中没有数据，作业A和作业B成批执行。当作业A运行时，

Alluxio

将首先从UFS获取数据，满足计算需求，并将数据缓存到其本地存储器（如内存）。当作业B需要查询数据时，Alluxio将首先检查其本地存储以满足作业B的需要。只有当缓存丢失时，它才会从UFS获取数据。数据现在通过不同的作业共享

简而言之，我认为这里的数据共享实际上就是你提到的缓存

保存到快子层的FS，在另一个作业中读取？@zero323我会尝试。谢谢