Python 将来自卡夫卡的消息存储到hdfs

Python 将来自卡夫卡的消息存储到hdfs,python,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Python,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我正在使用与python合流的Kafka。 我想将Kafka连接到Hdfs,并在Hdfs中直接存储一些特定的数据。 我找到了汇合的HDFS连接器,但我不知道如何用python脚本连接它。 有什么想法吗?或者直接将消息从Kafka存储到Hdfs的任何替代方法?要将数据从Kafka获取到Hdfs等数据存储,请使用Kafka Connect(它是Apache Kafka的一部分) 您需要运行ApacheKafka worker(一个JVM进程,就像Kafka代理等),然后使用RESTAPI以JSON形

我正在使用与python合流的Kafka。 我想将Kafka连接到Hdfs,并在Hdfs中直接存储一些特定的数据。 我找到了汇合的HDFS连接器,但我不知道如何用python脚本连接它。
有什么想法吗?或者直接将消息从Kafka存储到Hdfs的任何替代方法?

要将数据从Kafka获取到Hdfs等数据存储,请使用Kafka Connect(它是Apache Kafka的一部分)

您需要运行ApacheKafka worker(一个JVM进程,就像Kafka代理等),然后使用RESTAPI以JSON形式向其传递要使用的连接器的配置


在文档或中了解有关Kafka Connect的更多信息以及HDFS连接器本身,包括快速入门教程。

要从Kafka获取数据到HDFS等数据存储,请使用Kafka Connect(它是Apache Kafka的一部分)

您需要运行ApacheKafka worker(一个JVM进程,就像Kafka代理等),然后使用RESTAPI以JSON形式向其传递要使用的连接器的配置

在文档或中了解有关Kafka Connect的更多信息,以及HDFS连接器本身,包括快速入门教程

我不知道如何将它与python脚本连接起来

Kafka Connect是用Java编写的,因此无法与Python集成。如果文件能更清楚地说明这一点,你应该让别人知道

也就是说,它确实有一个RESTAPI。您可以使用
requests
urllib.request
从Python与之交互,就像任何其他HTTP服务一样


您还可以使用PySpark/Flink/Beam将数据从Kafka传输到Python中的HDFS

我不知道如何将它与python脚本连接起来

Kafka Connect是用Java编写的,因此无法与Python集成。如果文件能更清楚地说明这一点,你应该让别人知道

也就是说,它确实有一个RESTAPI。您可以使用
requests
urllib.request
从Python与之交互,就像任何其他HTTP服务一样


您还可以使用PySpark/Flink/Beam将数据从Kafka传输到Python中的HDFS