Apache spark 通过Spark计算共享数据集

Apache spark 通过Spark计算共享数据集,apache-spark,Apache Spark,我有一个巨大的数据文件(200Gb+),其中包含每天的度量(数百万个度量) 对于每个指标,我必须根据预定义的一组时间段(例如10、50、100、365天)计算一些值 计算每天进行,时段不变,每次计算所有时段 结果可以重复使用(从10个系列可以重复使用50个,以此类推,从50个系列可以重复使用100个,以此类推) 文件中的记录未排序 我想知道是否有一些Spark模式可以应用于一次性读取文件、缓存#2的结果等。我不太确定您的实现,但是如果您想缓存巨大的数据集并在Spark作业之间共享,您可以查看 简

我有一个巨大的数据文件(200Gb+),其中包含每天的度量(数百万个度量)

对于每个指标,我必须根据预定义的一组时间段(例如10、50、100、365天)计算一些值

  • 计算每天进行,时段不变,每次计算所有时段
  • 结果可以重复使用(从10个系列可以重复使用50个,以此类推,从50个系列可以重复使用100个,以此类推)
  • 文件中的记录未排序

  • 我想知道是否有一些Spark模式可以应用于一次性读取文件、缓存#2的结果等。

    我不太确定您的实现,但是如果您想缓存巨大的数据集并在Spark作业之间共享,您可以查看

    简单的实现是读取文件,对Alluxio进行一些传输和写入,您的第二个spark作业将直接读取Alluxio,以获取由Alluxio缓存到内存中的数据


    我不太确定您的实现,但是如果您想缓存巨大的数据集并在Spark jobs之间共享它,您可以看看

    简单的实现是读取文件,对Alluxio进行一些传输和写入,您的第二个spark作业将直接读取Alluxio,以获取由Alluxio缓存到内存中的数据


    您可以先计算10天的粒度,因为数据没有真正排序。然后,您可以持久化该数据帧,并从中计算所有其他数据帧。在这种情况下,我必须从头开始读取,因为数据未排序。您可以首先计算10天的粒度,因为数据未真正排序。然后您可以持久化该数据帧并从中计算所有其他数据帧。在这种情况下,我必须从头开始读取,因为数据没有排序