Apache spark Spark中是否可以使用符合GDPR的结构化流媒体？_Apache Spark_Pyspark_Apache Spark Sql_Spark Structured Streaming

Apache spark Spark中是否可以使用符合GDPR的结构化流媒体？

apache-spark pyspark

Apache spark Spark中是否可以使用符合GDPR的结构化流媒体？,apache-spark,pyspark,apache-spark-sql,spark-structured-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Structured Streaming,我们希望使用Spark结构化流处理数据，这些数据需要在一定时间后删除才能符合GDPR。在我们的程序中，我们有两个输入流数据帧，它们在流连接中连接。然后将生成的流数据帧写入输出文件为了符合GDPR，我们需要在一段时间后删除输入流和输出流中的数据。是否可以删除Spark流数据帧内超过特定时间戳的数据我们已经研究了Spark中的水印，它阻止时间戳早于水印的新数据写入输出流。但是，不会删除时间戳早于水印的数据，该水印已存在于输入或输出流中。有没有办法做到这一点例如，对于Apache Flink，我

我们希望使用Spark结构化流处理数据，这些数据需要在一定时间后删除才能符合GDPR。在我们的程序中，我们有两个输入流数据帧，它们在流连接中连接。然后将生成的流数据帧写入输出文件

为了符合GDPR，我们需要在一段时间后删除输入流和输出流中的数据。是否可以删除Spark流数据帧内超过特定时间戳的数据

我们已经研究了Spark中的水印，它阻止时间戳早于水印的新数据写入输出流。但是，不会删除时间戳早于水印的数据，该水印已存在于输入或输出流中。有没有办法做到这一点

例如，对于Apache Flink，我发现了支持应用程序状态清理的生存时间（TTL）功能：

Spark是否也有类似的功能？

我怀疑，但可能有人会让我大吃一惊。标题不正确，GDPR不止于此。那么已经写入的输出呢？我们已经在考虑删除已经写入的输出，当前的问题只涉及Spark Streaming数据帧中的数据。您必须使用mapGroupsWithState的一些变体，并明确删除您所在州中早于X的数据。我对此表示怀疑，但可能有人会让我吃惊。标题不正确，GDPR不仅仅是这样。那么已经写入的输出呢？我们已经在考虑删除已经写入的输出，当前的问题只是关于Spark Streaming Dataframes中的数据。您必须使用mapGroupsWithState的一些变体，并显式删除状态中早于X的数据