Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法_Apache Spark_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Apache Kafka_Spark Streaming_Spark Streaming Kafka - Fatal编程技术网 elasticsearch,apache-kafka,spark-streaming,spark-streaming-kafka,Apache Spark,elasticsearch,Apache Kafka,Spark Streaming,Spark Streaming Kafka" /> elasticsearch,apache-kafka,spark-streaming,spark-streaming-kafka,Apache Spark,elasticsearch,Apache Kafka,Spark Streaming,Spark Streaming Kafka" />

Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法

Apache spark 使用Spark和Elastic搜索时在Kafka中存储偏移的正确方法,apache-spark,elasticsearch,apache-kafka,spark-streaming,spark-streaming-kafka,Apache Spark,elasticsearch,Apache Kafka,Spark Streaming,Spark Streaming Kafka,我在这方面做了很多研究,但仍然没有找到合适的。无论我走到哪里,我都发现最简单的方法是调用saveToEs(),然后提交偏移量。我的问题是,如果由于某种原因,saveToEs()失败怎么办 当我们使用Spark streaming job并将文档存储在ES中时,在Kafka中存储偏移量的正确方法是什么。我尝试使用BulkProcessorListener并手动存储偏移量(跟踪已排序的偏移量和请求等等),但它失控了,对于这样一项一般任务,该方法似乎很复杂 有人能指引我吗 任何对我的方法感兴趣的人,下

我在这方面做了很多研究,但仍然没有找到合适的。无论我走到哪里,我都发现最简单的方法是调用
saveToEs()
,然后提交偏移量。我的问题是,如果由于某种原因,
saveToEs()
失败怎么办

当我们使用Spark streaming job并将文档存储在ES中时,在Kafka中存储偏移量的正确方法是什么。我尝试使用
BulkProcessorListener
并手动存储偏移量(跟踪已排序的偏移量和请求等等),但它失控了,对于这样一项一般任务,该方法似乎很复杂

有人能指引我吗

任何对我的方法感兴趣的人,下面是解释它的问题

最好将数据从Spark写回Kafka,然后使用Kafka Connect将数据流传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的,那么我可以写一个答案来解释。“罗宾莫法特不在那里,我可以在中间使用火花吗?”我正在过滤和丰富我的事件(Spark就是这么做的),然后尽可能将其存储到ESyou中,但这并不总是最好的方法。使用Spark进行过滤和丰富,然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的,但是现在我们没有改变工具的选择。然而,我仍然想知道我们如何做到这一点,也许,在未来我们可以使用this@sun_007对我会调查的。我真的很希望得到Spark解决方案,因为此时重新构建架构有点困难,但感谢您向我指出这个方向。您最好将数据从Spark写回Kafka,然后您可以使用Kafka Connect将其流式传输到Elasticsearch。这就是卡夫卡连接的设计目的。如果这是有意思的,那么我可以写一个答案来解释。“罗宾莫法特不在那里,我可以在中间使用火花吗?”我正在过滤和丰富我的事件(Spark就是这么做的),然后尽可能将其存储到ESyou中,但这并不总是最好的方法。使用Spark进行过滤和丰富,然后使用Kafka Connect将处理后的数据可靠地流式传输到Elasticsearch。每个工具都做它擅长的事情。@RobinMoffatt你是对的,但是现在我们没有改变工具的选择。然而,我仍然想知道我们如何做到这一点,也许,在未来我们可以使用this@sun_007对我会调查的。我真的希望得到一个Spark解决方案,因为在这一点上重新构建架构有点困难,但感谢您为我指明了这个方向