Apache spark Spark中是否可以使用符合GDPR的结构化流媒体?

Apache spark Spark中是否可以使用符合GDPR的结构化流媒体?,apache-spark,pyspark,apache-spark-sql,spark-structured-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Structured Streaming,我们希望使用Spark结构化流处理数据,这些数据需要在一定时间后删除才能符合GDPR。在我们的程序中,我们有两个输入流数据帧,它们在流连接中连接。然后将生成的流数据帧写入输出文件 为了符合GDPR,我们需要在一段时间后删除输入流和输出流中的数据。是否可以删除Spark流数据帧内超过特定时间戳的数据 我们已经研究了Spark中的水印,它阻止时间戳早于水印的新数据写入输出流。但是,不会删除时间戳早于水印的数据,该水印已存在于输入或输出流中。有没有办法做到这一点 例如,对于Apache Flink,我

我们希望使用Spark结构化流处理数据,这些数据需要在一定时间后删除才能符合GDPR。在我们的程序中,我们有两个输入流数据帧,它们在流连接中连接。然后将生成的流数据帧写入输出文件

为了符合GDPR,我们需要在一段时间后删除输入流和输出流中的数据。是否可以删除Spark流数据帧内超过特定时间戳的数据

我们已经研究了Spark中的水印,它阻止时间戳早于水印的新数据写入输出流。但是,不会删除时间戳早于水印的数据,该水印已存在于输入或输出流中。有没有办法做到这一点

例如,对于Apache Flink,我发现了支持应用程序状态清理的生存时间(TTL)功能:
Spark是否也有类似的功能?

我怀疑,但可能有人会让我大吃一惊。标题不正确,GDPR不止于此。那么已经写入的输出呢?我们已经在考虑删除已经写入的输出,当前的问题只涉及Spark Streaming数据帧中的数据。您必须使用mapGroupsWithState的一些变体,并明确删除您所在州中早于X的数据。我对此表示怀疑,但可能有人会让我吃惊。标题不正确,GDPR不仅仅是这样。那么已经写入的输出呢?我们已经在考虑删除已经写入的输出,当前的问题只是关于Spark Streaming Dataframes中的数据。您必须使用mapGroupsWithState的一些变体,并显式删除状态中早于X的数据