Apache spark 使用检查点位置偏移从Kafka主题读取流的正确方法
我正在尝试开发一个小的Spark应用程序(使用Scala)来读取来自Kafka(Confluent)的消息,并将它们写入Hive表。除了一个重要的特性——重新启动(提交)应用程序时管理偏移量外,所有功能都按预期工作。这使我困惑 从我的代码中删除:Apache spark 使用检查点位置偏移从Kafka主题读取流的正确方法,apache-spark,apache-kafka,apache-spark-sql,spark-structured-streaming,spark-streaming-kafka,Apache Spark,Apache Kafka,Apache Spark Sql,Spark Structured Streaming,Spark Streaming Kafka,我正在尝试开发一个小的Spark应用程序(使用Scala)来读取来自Kafka(Confluent)的消息,并将它们写入Hive表。除了一个重要的特性——重新启动(提交)应用程序时管理偏移量外,所有功能都按预期工作。这使我困惑 从我的代码中删除: def main(args: Array[String]): Unit = { val sparkSess = SparkSession .builder .appName("Kafka_to_Hive&
def main(args: Array[String]): Unit = {
val sparkSess = SparkSession
.builder
.appName("Kafka_to_Hive")
.config("spark.sql.warehouse.dir", "/user/hive/warehouse/")
.config("hive.metastore.uris", "thrift://localhost:9083")
.config("hive.exec.dynamic.partition", "true")
.config("hive.exec.dynamic.partition.mode", "nonstrict")
.enableHiveSupport()
.getOrCreate()
sparkSess.sparkContext.setLogLevel("ERROR")
// don't consider this code block please, it's just a part of Confluent avro message deserializing adventures
sparkSess.udf.register("deserialize", (bytes: Array[Byte]) =>
DeserializerWrapper.deserializer.deserialize(bytes)
)
val kafkaDataFrame = sparkSess
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", 'localhost:9092')
.option("group.id", 'kafka-to-hive-1')
// ------> which Kafka options do I need to set here for starting from last right offset to ensure completenes of data and "exactly once" writing? <--------
.option("failOnDataLoss", (false: java.lang.Boolean))
.option("subscribe", 'some_topic')
.load()
import org.apache.spark.sql.functions._
// don't consider this code block please, it's just a part of Confluent avro message deserializing adventures
val valueDataFrame = kafkaDataFrame.selectExpr("""deserialize(value) AS message""")
val df = valueDataFrame.select(
from_json(col("message"), sparkSchema.dataType).alias("parsed_value"))
.select("parsed_value.*")
df.writeStream
.foreachBatch((batchDataFrame, batchId) => {
batchDataFrame.createOrReplaceTempView("`some_view_name`")
val sqlText = "SELECT * FROM `some_view_name` a where some_field='some value'"
val batchDataFrame_view = batchDataFrame.sparkSession.sql(sqlText);
batchDataFrame_view.write.insertInto("default.some_hive_table")
})
.option("checkpointLocation", "/user/some_user/tmp/checkpointLocation")
.start()
.awaitTermination()
}
def main(args:Array[String]):单位={
val sparkSess=SparkSession
建设者
.appName(“卡夫卡到蜂巢”)
.config(“spark.sql.warehouse.dir”,“/user/hive/warehouse/”)
.config(“hive.metastore.uris”thrift://localhost:9083")
.config(“hive.exec.dynamic.partition”,“true”)
.config(“hive.exec.dynamic.partition.mode”,“非严格”)
.enableHiveSupport()
.getOrCreate()
Sparkess.sparkContext.setLogLevel(“错误”)
请不要考虑这个代码块,它只是汇合AVRO消息的一部分。
寄存器(“反序列化”,(字节:数组[Byte])=>
DeserializerWrapper.deserializer.deserialize(字节)
)
val kafkaDataFrame=Sparkesss
.readStream
.格式(“卡夫卡”)
.option(“kafka.bootstrap.servers”,“localhost:9092”)
.option(“group.id”,“kafka-to-hive-1”)
//------>我需要在此处设置哪些卡夫卡选项,以便从最后一个右偏移量开始,以确保数据的完整性和“恰好一次”写入{
batchDataFrame.createOrReplaceTempView(`some\u view\u name`)
val sqlText=“从'some\u view\u name'中选择*,其中some\u字段='some value'”
val batchDataFrame_view=batchDataFrame.sparkSession.sql(sqlText);
batchDataFrame_view.write.insertInto(“默认的一些配置单元表”)
})
.option(“checkpointLocation”,“/user/some_user/tmp/checkpointLocation”)
.start()
.终止
}
问题(这些问题相互关联):
readStream.format(“Kafka”)
上应用哪些卡夫卡选项readStream.format(“kafka”).option(“startingOffsets”,“some_topic”:{“2”:35079,“5”:34854,“4”:35537,“1”:35357,“3”:35436,“0”:35213}>”
startingoffset=latest
并清理检查点文件
“我是否需要手动读取checkpointLocation/offsets/latest_批处理文件的第3行以查找要从Kafka读取的最后偏移量?我的意思是:readStream.format(“Kafka”).option(“startingOffsets”),“{”some_topic:{“2”:35079,“5”:34854,“4”:35537,“1”:35357,“3”:35436,“0”:35213}”“。”
与第一个问题类似,如果将StartingOffset设置为json字符串,则需要删除检查点文件。否则,spark应用程序将始终获取存储在检查点文件中的信息,并覆盖startingOffsets
选项中给出的设置
“从卡夫卡(合流)主题中读取流的正确/方便方式是什么?(我不考虑卡夫卡的引擎)
询问“正确的方式”可能会得到基于意见的答案,因此在Stackoverflow上是离题的。无论如何,根据我的经验,使用Spark结构化流媒体已经是一种成熟的、可用于生产的方法。然而,KafkaConnect也值得一试。亲爱的@mike,关于你的前两个答案:当你说“清理检查点文件”时,你的意思是实际删除
检查点位置/offset/
目录下的所有文件?是否有从代码中调用它的内置功能?是的,您需要在文件系统中物理删除它们。没有用于删除正在运行的查询的检查点文件的内置功能。请记住,您尝试实现的行为(从每次提交作业的最新偏移量开始)只是出于测试目的,您可能永远不会在生产中执行此操作。如果您需要在生产上这样做,您可以考虑批处理作业,而不是流式作业:-如果在生产中不删除检查点文件,作业将读取检查点文件中的内容,以从其停止的地方继续消费。如果保留检查点文件,代码中的startingoffset
设置将被忽略。是的,从这个角度看,代码看起来不错(我没有查看foreachBatch部分)。