Apache spark 为流式查询创建Kafka接收器和将批处理查询的输出写入Kafka之间的区别
在本文中,它给出了两个将数据从spark写入Kafka的场景,一个是Apache spark 为流式查询创建Kafka接收器和将批处理查询的输出写入Kafka之间的区别,apache-spark,apache-kafka,Apache Spark,Apache Kafka,在本文中,它给出了两个将数据从spark写入Kafka的场景,一个是为流式查询创建Kafka接收器,另一个是将批处理查询的输出写入Kafka。我想知道他们之间有什么不同 在我的例子中,我们已经有了一个每天生成大量数据的spark批处理作业,我们正在寻找一个连接器解决方案,可以将这些数据接收到Kafka。该网页中这两个场景中的哪一个适合我们的案例 谢谢 “每天进行一次spark批量作业,生成大量数据” 我想你是在自己提供答案。如果您有一个只运行一次的批处理数据帧(与连续运行的流式作业相比),那么您
为流式查询创建Kafka接收器
,另一个是将批处理查询的输出写入Kafka
。我想知道他们之间有什么不同
在我的例子中,我们已经有了一个每天生成大量数据的spark批处理作业,我们正在寻找一个连接器解决方案,可以将这些数据接收到Kafka。该网页中这两个场景中的哪一个适合我们的案例
谢谢
“每天进行一次spark批量作业,生成大量数据”
我想你是在自己提供答案。如果您有一个只运行一次的批处理数据帧(与连续运行的流式作业相比),那么您需要的就是批处理Kafka接收器
您还可以通过查看数据帧是如何创建的,通过read
(批处理)或readStrem
(流式处理)来指示这一点
如果您仍然不确定要选择哪一个,将在运行时通知您,因为无法在同一查询中混合批处理和流式处理。因此,反复试验也会让你找到解决方案