Apache spark Spark Streaming与Kafka的实时集成_Apache Spark_Spark Streaming

Apache spark Spark Streaming与Kafka的实时集成

apache-spark

Apache spark Spark Streaming与Kafka的实时集成,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我将Spark Streaming Process与卡夫卡结合起来阅读特定主题。创建了Spark上下文，轮询时间为5秒，工作正常。但是，如果我想实时访问提要，我可以进一步将其减少到1秒（是否会过度杀戮？），或者是否有其他更好的选择来处理这种情况 Spark Structured streaming为处理时间提供了多种模式或“触发器”。通过使用连续处理模式，您可以牺牲吞吐量以减少延迟。您可以通过增加触发器持续时间来牺牲延迟以获得更大的吞吐量。在Scala上将微批处理持续时间设置为1s，在Pytho

我将Spark Streaming Process与卡夫卡结合起来阅读特定主题。创建了Spark上下文，轮询时间为5秒，工作正常。但是，如果我想实时访问提要，我可以进一步将其减少到1秒（是否会过度杀戮？），或者是否有其他更好的选择来处理这种情况

Spark Structured streaming为处理时间提供了多种模式或“触发器”。通过使用连续处理模式，您可以牺牲吞吐量以减少延迟。您可以通过增加触发器持续时间来牺牲延迟以获得更大的吞吐量。在Scala上将微批处理持续时间设置为1s，在Python上将微批处理持续时间设置为2s，这应该很好