Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录？_Apache Spark_Apache Kafka_Apache Spark Sql_Datastax

Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录？

apache-spark apache-kafka

Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录？,apache-spark,apache-kafka,apache-spark-sql,datastax,Apache Spark,Apache Kafka,Apache Spark Sql,Datastax,对于我的PoC，我将spark sql 2.4.x与Kafka一起使用。我有一个来自卡夫卡主题的流媒体公司数据。包含“公司id”、“创建日期”、“字段1”、“字段2”等字段的公司数据。让我们这样说，作为数据流我的拼花文件里有旧的公司资料。i、 e.“hdfs://parquet/company“，让我们将其称为oldCompanyDataDf 我需要检查来自kafka的新数据流（新数据流），对于给定公司id的每个接收记录，如果数据已经 “有一个”hdfs://parquet/compan

对于我的PoC，我将spark sql 2.4.x与Kafka一起使用。我有一个来自卡夫卡主题的流媒体公司数据。包含“公司id”、“创建日期”、“字段1”、“字段2”等字段的公司数据。让我们这样说，作为数据流

我的拼花文件里有旧的公司资料。i、 e.“hdfs://parquet/company“，让我们将其称为oldCompanyDataDf

我需要检查来自kafka的新数据流（新数据流），对于给定公司id的每个接收记录，如果数据已经 “有一个”hdfs://parquet/company“档案。（旧公司数据）

如何检查此项？

如果新公司数据流“field1”和旧公司数据流“field1”不存在相同，然后执行tast2（即删除旧公司数据记录并添加新公司数据流“字段1”记录到旧公司数据中）

如果新公司数据流“field2”和旧公司数据流“field2”不存在相同，然后执行tast2（即删除旧公司数据记录并添加新公司数据流“字段2”记录到旧公司数据中）

如何使用spark sql结构化流媒体实现此功能？

对于任何片段或建议，非常感谢

您是否尝试加入流式处理和批处理数据集的

join

？显示代码。编辑您的问题并展示您迄今为止所获得的信息。您是否尝试加入流式处理和批处理数据集的

join

？展示代码。编辑你的问题，并展示你到目前为止的成果。