Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法
我在这方面做了很多研究,但仍然没有找到合适的。无论我走到哪里,我都发现最简单的方法是调用Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法,apache-spark,
elasticsearch,apache-kafka,spark-streaming,spark-streaming-kafka,Apache Spark,
elasticsearch,Apache Kafka,Spark Streaming,Spark Streaming Kafka,我在这方面做了很多研究,但仍然没有找到合适的。无论我走到哪里,我都发现最简单的方法是调用saveToEs(),然后提交偏移量。我的问题是,如果由于某种原因,saveToEs()失败怎么办 当我们使用Spark streaming job并将文档存储在ES中时,在Kafka中存储偏移量的正确方法是什么。我尝试使用BulkProcessorListener并手动存储偏移量(跟踪已排序的偏移量和请求等等),但它失控了,对于这样一项一般任务,该方法似乎很复杂 有人能指引我吗 任何对我的方法感兴趣的人,下
saveToEs()
,然后提交偏移量。我的问题是,如果由于某种原因,saveToEs()
失败怎么办
当我们使用Spark streaming job并将文档存储在ES中时,在Kafka中存储偏移量的正确方法是什么。我尝试使用BulkProcessorListener
并手动存储偏移量(跟踪已排序的偏移量和请求等等),但它失控了,对于这样一项一般任务,该方法似乎很复杂
有人能指引我吗
任何对我的方法感兴趣的人,下面是解释它的问题
最好将数据从Spark写回Kafka,然后使用Kafka Connect将数据流传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的,那么我可以写一个答案来解释。“罗宾莫法特不在那里,我可以在中间使用火花吗?”我正在过滤和丰富我的事件(Spark就是这么做的),然后尽可能将其存储到ESyou中,但这并不总是最好的方法。使用Spark进行过滤和丰富,然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的,但是现在我们没有改变工具的选择。然而,我仍然想知道我们如何做到这一点,也许,在未来我们可以使用this@sun_007对我会调查的。我真的很希望得到Spark解决方案,因为此时重新构建架构有点困难,但感谢您向我指出这个方向。您最好将数据从Spark写回Kafka,然后您可以使用Kafka Connect将其流式传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的,那么我可以写一个答案来解释。“罗宾莫法特不在那里,我可以在中间使用火花吗?”我正在过滤和丰富我的事件(Spark就是这么做的),然后尽可能将其存储到ESyou中,但这并不总是最好的方法。使用Spark进行过滤和丰富,然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的,但是现在我们没有改变工具的选择。然而,我仍然想知道我们如何做到这一点,也许,在未来我们可以使用this@sun_007对我会调查的。我真的希望得到一个Spark解决方案,因为在这一点上重新构建架构有点困难,但感谢您为我指明了这个方向