Apache spark 如何使用超光速子在Spark作业之间共享数据
我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说 Tachyon是一个开源的以内存为中心的分布式存储系统,能够跨群集作业以内存速度实现可靠的数据共享Apache spark 如何使用超光速子在Spark作业之间共享数据,apache-spark,alluxio,Apache Spark,Alluxio,我是超光速粒子的初学者。我想在spark jobs之间共享一些数据或rdd。说 Tachyon是一个开源的以内存为中心的分布式存储系统,能够跨群集作业以内存速度实现可靠的数据共享 但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。我不认为您需要明确地这样做,Alluxio将帮助您管理数据共享 假设您有两个spark作业A和B,它们被配置为从Alluxio获取数据 假设Alluxio中没有数据,作业A和作业B成批执行。当作业A运行时,Alluxio将首先从UFS获取
但我不知道如何实现这一点。我只知道超光速子可以在Spark中充当堆外缓存层。谢谢。我不认为您需要明确地这样做,
Alluxio
将帮助您管理数据共享
假设您有两个spark作业A和B,它们被配置为从Alluxio
获取数据
假设Alluxio
中没有数据,作业A和作业B成批执行。当作业A运行时,Alluxio
将首先从UFS获取数据,满足计算需求,并将数据缓存到其本地存储器(如内存)。当作业B需要查询数据时,Alluxio将首先检查其本地存储以满足作业B的需要。只有当缓存丢失时,它才会从UFS获取数据。数据现在通过不同的作业共享
简而言之,我认为这里的数据共享实际上就是你提到的缓存 保存到快子层的FS,在另一个作业中读取?@zero323我会尝试。谢谢