Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Kafka Spark流媒体摄食,适用于多个主题_Apache Spark_Apache Kafka_Hdfs_Spark Streaming - Fatal编程技术网

Apache spark Kafka Spark流媒体摄食,适用于多个主题

Apache spark Kafka Spark流媒体摄食,适用于多个主题,apache-spark,apache-kafka,hdfs,spark-streaming,Apache Spark,Apache Kafka,Hdfs,Spark Streaming,我们目前正在使用Spark流媒体将Kafka消息接收到HDFS中。到目前为止,我们为每个主题生成了一个完整的Spark作业 由于一些主题的消息很少平均每天生成1条,因此我们正在考虑在池中组织摄取 这样做的目的是避免为这个不常见的主题创建一个完整的容器和相关资源。事实上,Spark Streaming接受输入中的主题列表,因此我们正在考虑使用此功能,以使单个作业能够使用所有主题 你们认为曝光是个好策略吗?我们也考虑了批量摄取,但我们喜欢保持实时行为,所以我们排除了这个选项。你有什么建议吗 Spar

我们目前正在使用Spark流媒体将Kafka消息接收到HDFS中。到目前为止,我们为每个主题生成了一个完整的Spark作业

由于一些主题的消息很少平均每天生成1条,因此我们正在考虑在池中组织摄取

这样做的目的是避免为这个不常见的主题创建一个完整的容器和相关资源。事实上,Spark Streaming接受输入中的主题列表,因此我们正在考虑使用此功能,以使单个作业能够使用所有主题

你们认为曝光是个好策略吗?我们也考虑了批量摄取,但我们喜欢保持实时行为,所以我们排除了这个选项。你有什么建议吗

Spark Streaming是否能够很好地处理多个主题作为源,以防在偏移一致性等方面出现故障


谢谢

我认为Spark应该能够很好地处理多个主题,因为他们很早就支持这个主题了,而且Kafka connect不是融合API。Confluent确实为其集群提供了连接器,但您也可以使用它。您可以看到ApacheKafka还提供了用于连接API的文档

使用Apache版本的Kafka有点困难,但您可以使用它


此外,如果您在single spark streaming job中选择多个kafka主题,您可能需要考虑不要创建小文件,因为您的频率似乎非常低。

就个人而言,我会使用kafka Connect群集,而不是调整spark codeGood point。但我们倾向于排除Kafka Connect,原因有两个:似乎只有汇合实现只处理Avro序列化。此外,我们自己的实现将给我们充分的灵活性。此外,我们希望使用自己的调度程序在集群中处理这些集成作业,而不是在堆栈中添加其他技术。建议您遵循007的建议这不是Confluent独有的。它完全基于插件。只是想一想,如果你想让你的Spark cluster为其他任务打开更多的资源Hanks@cricket_007,但我只能在那里找到汇合连接器。我担心执照之类的东西。你知道另一个连接器吗?你能链接一下吗?