Apache spark 如何使用超光速子在Spark作业之间共享数据

Apache spark 如何使用超光速子在Spark作业之间共享数据,apache-spark,alluxio,Apache Spark,Alluxio,我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说 Tachyon是一个开源的以内存为中心的分布式存储系统,能够跨群集作业以内存速度实现可靠的数据共享 但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。我不认为您需要明确地这样做,Alluxio将帮助您管理数据共享 假设您有两个spark作业A和B,它们被配置为从Alluxio获取数据 假设Alluxio中没有数据,作业A和作业B成批执行。当作业A运行时,Alluxio将首先从UFS获取

我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说

Tachyon是一个开源的以内存为中心的分布式存储系统,能够跨群集作业以内存速度实现可靠的数据共享


但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。

我不认为您需要明确地这样做,
Alluxio
将帮助您管理数据共享

假设您有两个spark作业A和B,它们被配置为从
Alluxio
获取数据

假设
Alluxio
中没有数据,作业A和作业B成批执行。当作业A运行时,
Alluxio
将首先从UFS获取数据,满足计算需求,并将数据缓存到其本地存储器(如内存)。当作业B需要查询数据时,Alluxio将首先检查其本地存储以满足作业B的需要。只有当缓存丢失时,它才会从UFS获取数据。数据现在通过不同的作业共享


简而言之,我认为这里的数据共享实际上就是你提到的缓存

保存到快子层的FS,在另一个作业中读取?@zero323我会尝试。谢谢