Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark结构化流媒体忽略旧记录_Apache Spark - Fatal编程技术网

Apache spark Spark结构化流媒体忽略旧记录

Apache spark Spark结构化流媒体忽略旧记录,apache-spark,Apache Spark,我是一个新的火花,并帮助我达成解决这个问题的办法。我正在接收输入文件,它包含有关发生事件的信息,并且文件本身具有时间戳值。事件Id是此输入的主列。参考下面的示例输入(实际文件有许多其他列) 当我们得到上面的输入时,我们需要根据事件id、时间戳和预期输出得到最新的记录 Event_Id | Event_Timestamp 2 | 2018-10-11 13:25:01 1 | 2018-10-11 14:23:01 3 | 2018-10-11 20

我是一个新的火花,并帮助我达成解决这个问题的办法。我正在接收输入文件,它包含有关发生事件的信息,并且文件本身具有时间戳值。事件Id是此输入的主列。参考下面的示例输入(实际文件有许多其他列)

当我们得到上面的输入时,我们需要根据事件id、时间戳和预期输出得到最新的记录

Event_Id | Event_Timestamp

2        | 2018-10-11 13:25:01

1        | 2018-10-11 14:23:01

3        | 2018-10-11 20:12:01

此后,每当收到时间戳值小于我需要忽略的上述值的事件信息时,例如,考虑第二个输入

Event_Id | Event_Timestamp

2        | 2018-10-11 10:25:01

1        | 2018-10-11 08:23:01

3        | 2018-10-11 21:12:01
现在我需要忽略事件_id 1和2,因为它有旧的时间戳,表示我们现在拥有的状态。只传递事件3,此处的预期输出为

3        | 2018-10-11 21:12:01
假设我们有n个唯一(100亿)事件id,它将如何存储在spark内存中,是否需要注意一些问题


提前感谢

我们可以使用max timestamp并使用persist()方法,只使用disk_或disk_only 2存储级别。。。在这种情况下,我们可以做到这一点,我认为。。。 由于它是一种流式数据,我们可以尝试使用仅内存或仅内存2个存储级别

请尝试并更新

3        | 2018-10-11 21:12:01