Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法_Apache Spark_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Apache Kafka_Spark Streaming_Spark Streaming Kafka

Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法

apache-spark apache-kafka

Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法,apache-spark,elasticsearch,apache-kafka,spark-streaming,spark-streaming-kafka,Apache Spark,elasticsearch,Apache Kafka,Spark Streaming,Spark Streaming Kafka,我在这方面做了很多研究，但仍然没有找到合适的。无论我走到哪里，我都发现最简单的方法是调用saveToEs（），然后提交偏移量。我的问题是，如果由于某种原因，saveToEs（）失败怎么办当我们使用Spark streaming job并将文档存储在ES中时，在Kafka中存储偏移量的正确方法是什么。我尝试使用BulkProcessorListener并手动存储偏移量（跟踪已排序的偏移量和请求等等），但它失控了，对于这样一项一般任务，该方法似乎很复杂有人能指引我吗任何对我的方法感兴趣的人，下

我在这方面做了很多研究，但仍然没有找到合适的。无论我走到哪里，我都发现最简单的方法是调用

saveToEs（）

，然后提交偏移量。我的问题是，如果由于某种原因，

saveToEs（）

失败怎么办

当我们使用Spark streaming job并将文档存储在ES中时，在Kafka中存储偏移量的正确方法是什么。我尝试使用

BulkProcessorListener

并手动存储偏移量（跟踪已排序的偏移量和请求等等），但它失控了，对于这样一项一般任务，该方法似乎很复杂

有人能指引我吗

任何对我的方法感兴趣的人，下面是解释它的问题
最好将数据从Spark写回Kafka，然后使用Kafka Connect将数据流传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的，那么我可以写一个答案来解释。“罗宾莫法特不在那里，我可以在中间使用火花吗？”我正在过滤和丰富我的事件（Spark就是这么做的），然后尽可能将其存储到ESyou中，但这并不总是最好的方法。使用Spark进行过滤和丰富，然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的，但是现在我们没有改变工具的选择。然而，我仍然想知道我们如何做到这一点，也许，在未来我们可以使用this@sun_007对我会调查的。我真的很希望得到Spark解决方案，因为此时重新构建架构有点困难，但感谢您向我指出这个方向。您最好将数据从Spark写回Kafka，然后您可以使用Kafka Connect将其流式传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的，那么我可以写一个答案来解释。“罗宾莫法特不在那里，我可以在中间使用火花吗？”我正在过滤和丰富我的事件（Spark就是这么做的），然后尽可能将其存储到ESyou中，但这并不总是最好的方法。使用Spark进行过滤和丰富，然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的，但是现在我们没有改变工具的选择。然而，我仍然想知道我们如何做到这一点，也许，在未来我们可以使用this@sun_007对我会调查的。我真的希望得到一个Spark解决方案，因为在这一点上重新构建架构有点困难，但感谢您为我指明了这个方向