Apache spark 如何在批处理模式下使用spark从kafka主题加载所有记录
我想使用spark加载kafka topic中的所有记录,但我看到的所有示例都使用spark流。如何才能从卡夫卡加载消息一次?列出了具体步骤,例如:Apache spark 如何在批处理模式下使用spark从kafka主题加载所有记录,apache-spark,apache-kafka,apache-spark-sql,kafka-consumer-api,Apache Spark,Apache Kafka,Apache Spark Sql,Kafka Consumer Api,我想使用spark加载kafka topic中的所有记录,但我看到的所有示例都使用spark流。如何才能从卡夫卡加载消息一次?列出了具体步骤,例如: val df = spark .read .format("kafka") .option("kafka.bootstrap.servers", "host1:port1,host2:port2") .option("subscribePattern", "topic.*") .option("startingOffsets",
val df = spark
.read
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribePattern", "topic.*")
.option("startingOffsets", "earliest")
.option("endingOffsets", "latest")
.load()
然而,如果源是连续流,“所有记录”的定义相当糟糕,因为结果取决于执行查询时的时间点
此外,您应该记住,并行性受到卡夫卡主题分区的限制,因此,您必须小心,不要让集群崩溃。注意:这里返回的数据只是二进制的,仍然需要解析。您可以添加一个流行为的示例和一些伪代码来说明您希望它如何工作吗?这表明您自己已经在努力寻找解决方案,并且阻止了人们认为您希望人们为您编写代码。这不是必需的,已经收到了正确的答案。