将Spark streaming连接到StreamSet输入
我想知道是否有可能从流集为spark流提供输入。我注意到StreamSets连接器目标中不支持Spark流将Spark streaming连接到StreamSet输入,streaming,spark-streaming,streamsets,Streaming,Spark Streaming,Streamsets,我想知道是否有可能从流集为spark流提供输入。我注意到StreamSets连接器目标中不支持Spark流 我正在探索是否有其他方法将它们连接到示例POC。在Apache Spark Streaming中处理来自Streamsets data Collector(SDC)的数据的最佳方法是将数据写入Kafka主题并从中读取数据。这允许您将Spark Streaming从SDC中分离出来,这样两者都可以以自己的处理速率进行处理 SDC微播是由记录计数定义的,而Spark流媒体微播是由时间决定的。这
我正在探索是否有其他方法将它们连接到示例POC。在Apache Spark Streaming中处理来自Streamsets data Collector(SDC)的数据的最佳方法是将数据写入Kafka主题并从中读取数据。这允许您将Spark Streaming从SDC中分离出来,这样两者都可以以自己的处理速率进行处理 SDC微播是由记录计数定义的,而Spark流媒体微播是由时间决定的。这意味着每个SDC批次可能(也可能不会)与Spark Streaming批次相对应(Spark Streaming批次很可能具有来自多个SDC批次的数据)。SDC在发送到目的地后“提交”每个批次-将批次写入Spark Streaming将意味着每个SDC批次都需要对应于Spark Streaming批次,以避免数据丢失。 由于处理或节点故障,Spark Streaming“重新处理”已经提交的批也是可能的。SDC无法重新处理已提交的批处理—因此,要从这种情况中恢复,您必须编写类似Kafka的文件,以便重新处理批处理。因此,拥有一个从SDC写入Spark流的直接连接器将非常复杂,并且可能存在数据丢失问题 简而言之,您最好的选择是SDC->Kafka->Spark Streaming