Scala 如何在spark中使用Kafka consumer
我使用的是spark 2.1和Kafka 0.10.1 我想通过每天阅读卡夫卡特定主题的全部数据来处理数据 对于spark streaming,我知道Scala 如何在spark中使用Kafka consumer,scala,apache-spark,apache-kafka,kafka-consumer-api,Scala,Apache Spark,Apache Kafka,Kafka Consumer Api,我使用的是spark 2.1和Kafka 0.10.1 我想通过每天阅读卡夫卡特定主题的全部数据来处理数据 对于spark streaming,我知道createDirectStream只需要包含主题列表和一些配置信息作为参数 然而,我意识到createRDD必须包含所有主题、分区和偏移量信息 我想让批量处理像spark中的流式处理一样方便 有可能吗?我建议您阅读本文 本例向您展示了如何一次性从卡夫卡获取数据。由于ACID结构,您将在postgres中保留偏移量 所以我希望这能解决你的问题。你的
createDirectStream
只需要包含主题列表和一些配置信息作为参数
然而,我意识到createRDD
必须包含所有主题、分区和偏移量信息
我想让批量处理像spark中的流式处理一样方便
有可能吗?我建议您阅读本文 本例向您展示了如何一次性从卡夫卡获取数据。由于ACID结构,您将在postgres中保留偏移量
所以我希望这能解决你的问题。你的问题有没有得到答案?