Apache spark 通过Spark计算共享数据集_Apache Spark

Apache spark 通过Spark计算共享数据集

apache-spark

Apache spark 通过Spark计算共享数据集,apache-spark,Apache Spark,我有一个巨大的数据文件（200Gb+），其中包含每天的度量（数百万个度量）对于每个指标，我必须根据预定义的一组时间段（例如10、50、100、365天）计算一些值计算每天进行，时段不变，每次计算所有时段结果可以重复使用（从10个系列可以重复使用50个，以此类推，从50个系列可以重复使用100个，以此类推）文件中的记录未排序我想知道是否有一些Spark模式可以应用于一次性读取文件、缓存#2的结果等。我不太确定您的实现，但是如果您想缓存巨大的数据集并在Spark作业之间共享，您可以查看简

我有一个巨大的数据文件（200Gb+），其中包含每天的度量（数百万个度量）

对于每个指标，我必须根据预定义的一组时间段（例如10、50、100、365天）计算一些值

计算每天进行，时段不变，每次计算所有时段

结果可以重复使用（从10个系列可以重复使用50个，以此类推，从50个系列可以重复使用100个，以此类推）

文件中的记录未排序

我想知道是否有一些Spark模式可以应用于一次性读取文件、缓存#2的结果等。

我不太确定您的实现，但是如果您想缓存巨大的数据集并在Spark作业之间共享，您可以查看

简单的实现是读取文件，对Alluxio进行一些传输和写入，您的第二个spark作业将直接读取Alluxio，以获取由Alluxio缓存到内存中的数据

我不太确定您的实现，但是如果您想缓存巨大的数据集并在Spark jobs之间共享它，您可以看看

简单的实现是读取文件，对Alluxio进行一些传输和写入，您的第二个spark作业将直接读取Alluxio，以获取由Alluxio缓存到内存中的数据

您可以先计算10天的粒度，因为数据没有真正排序。然后，您可以持久化该数据帧，并从中计算所有其他数据帧。在这种情况下，我必须从头开始读取，因为数据未排序。您可以首先计算10天的粒度，因为数据未真正排序。然后您可以持久化该数据帧并从中计算所有其他数据帧。在这种情况下，我必须从头开始读取，因为数据没有排序