Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/sql-server-2008/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将Spark streaming连接到StreamSet输入_Streaming_Spark Streaming_Streamsets - Fatal编程技术网

将Spark streaming连接到StreamSet输入

将Spark streaming连接到StreamSet输入,streaming,spark-streaming,streamsets,Streaming,Spark Streaming,Streamsets,我想知道是否有可能从流集为spark流提供输入。我注意到StreamSets连接器目标中不支持Spark流 我正在探索是否有其他方法将它们连接到示例POC。在Apache Spark Streaming中处理来自Streamsets data Collector(SDC)的数据的最佳方法是将数据写入Kafka主题并从中读取数据。这允许您将Spark Streaming从SDC中分离出来,这样两者都可以以自己的处理速率进行处理 SDC微播是由记录计数定义的,而Spark流媒体微播是由时间决定的。这

我想知道是否有可能从流集为spark流提供输入。我注意到StreamSets连接器目标中不支持Spark流


我正在探索是否有其他方法将它们连接到示例POC。

在Apache Spark Streaming中处理来自Streamsets data Collector(SDC)的数据的最佳方法是将数据写入Kafka主题并从中读取数据。这允许您将Spark Streaming从SDC中分离出来,这样两者都可以以自己的处理速率进行处理

SDC微播是由记录计数定义的,而Spark流媒体微播是由时间决定的。这意味着每个SDC批次可能(也可能不会)与Spark Streaming批次相对应(Spark Streaming批次很可能具有来自多个SDC批次的数据)。SDC在发送到目的地后“提交”每个批次-将批次写入Spark Streaming将意味着每个SDC批次都需要对应于Spark Streaming批次,以避免数据丢失。 由于处理或节点故障,Spark Streaming“重新处理”已经提交的批也是可能的。SDC无法重新处理已提交的批处理—因此,要从这种情况中恢复,您必须编写类似Kafka的文件,以便重新处理批处理。因此,拥有一个从SDC写入Spark流的直接连接器将非常复杂,并且可能存在数据丢失问题

简而言之,您最好的选择是SDC->Kafka->Spark Streaming