Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录?

Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录?,apache-spark,apache-kafka,apache-spark-sql,datastax,Apache Spark,Apache Kafka,Apache Spark Sql,Datastax,对于我的PoC,我将spark sql 2.4.x与Kafka一起使用。 我有一个来自卡夫卡主题的流媒体公司数据。 包含“公司id”、“创建日期”、“字段1”、“字段2”等字段的公司数据。让我们这样说,作为数据流 我的拼花文件里有旧的公司资料。i、 e.“hdfs://parquet/company“,让我们将其称为oldCompanyDataDf 我需要检查来自kafka的新数据流(新数据流) ,对于给定公司id的每个接收记录,如果数据已经 “有一个”hdfs://parquet/compan

对于我的PoC,我将spark sql 2.4.x与Kafka一起使用。 我有一个来自卡夫卡主题的流媒体公司数据。 包含“公司id”、“创建日期”、“字段1”、“字段2”等字段的公司数据。让我们这样说,作为数据流

我的拼花文件里有旧的公司资料。i、 e.“hdfs://parquet/company“,让我们将其称为oldCompanyDataDf

我需要检查来自kafka的新数据流(新数据流) ,对于给定公司id的每个接收记录,如果数据已经 “有一个”hdfs://parquet/company“档案。(旧公司数据)

如何检查此项?

如果新公司数据流“field1”和旧公司数据流“field1”不存在 相同,然后执行tast2(即删除旧公司数据记录并添加 新公司数据流“字段1”记录到旧公司数据中)

如果新公司数据流“field2”和旧公司数据流“field2”不存在 相同,然后执行tast2(即删除旧公司数据记录并添加 新公司数据流“字段2”记录到旧公司数据中)

如何使用spark sql结构化流媒体实现此功能?


对于任何片段或建议,非常感谢

您是否尝试加入流式处理和批处理数据集的
join
?显示代码。编辑您的问题并展示您迄今为止所获得的信息。您是否尝试加入流式处理和批处理数据集的
join
?展示代码。编辑你的问题,并展示你到目前为止的成果。