Apache spark 结构化流媒体中的模式检查
我正在使用Kafka中的一个主题,我使用from_json将json消息转换为数据帧,并使用结构化流Apache spark 结构化流媒体中的模式检查,apache-spark,apache-kafka,spark-structured-streaming,Apache Spark,Apache Kafka,Spark Structured Streaming,我正在使用Kafka中的一个主题,我使用from_json将json消息转换为数据帧,并使用结构化流 val-agentStringDF=spark .readStream .格式(“卡夫卡”) .选项(“订阅”、“测试主题”) .选项(“起始偏移量”、“最新”) .load() val df=agentStringDF.select(来自_json(col(“value”).cast(“string”)、testTopicSchema.alias(“testTopic”)) 是否有任何方法可
val-agentStringDF=spark
.readStream
.格式(“卡夫卡”)
.选项(“订阅”、“测试主题”)
.选项(“起始偏移量”、“最新”)
.load()
val df=agentStringDF.select(来自_json(col(“value”).cast(“string”)、testTopicSchema.alias(“testTopic”))
是否有任何方法可以使用from_json执行某种类型的类型,如果失败,记录错误并转到下一个微批处理
我见过转换模式后检查模式的案例。。但是没有这样的检查 无论数据是什么,
from_json
都不应该失败,因此不清楚您期望的是什么。因此,如果模式是错误的,我希望整个微批次被废弃,除了记录错误之外什么都不做。该场景是一条提交给主题的消息是一个破坏性的模式更改,我希望spark作业足够灵活,可以忽略错误消息。