Apache kafka Kafka Connect:多个独立连接器是否可以写入同一HDFS目录?
对于我们的管道,我们有大约40个主题(每个10-25个分区),我们希望在独立模式下使用HDFS 3接收器连接器将它们写入相同的HDFS目录(分布式不适用于我们当前的设置)。我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题 如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录?由于连接器然后按主题组织HDFS中的所有文件,我认为这不应该是一个问题,但我想知道是否有人有过这种设置的经验 基本示例: 连接器-1配置Apache kafka Kafka Connect:多个独立连接器是否可以写入同一HDFS目录?,apache-kafka,hdfs,apache-kafka-connect,Apache Kafka,Hdfs,Apache Kafka Connect,对于我们的管道,我们有大约40个主题(每个10-25个分区),我们希望在独立模式下使用HDFS 3接收器连接器将它们写入相同的HDFS目录(分布式不适用于我们当前的设置)。我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题 如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录?由于连接器然后按主题组织HDFS中的所有文件,我认为这不应该是一个问题,但我想知道是否有人有过这种设置的经验 基本示例: 连接器-1配置 name=connect-
name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput
连接器-2配置
name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput
分布式不适用于我们当前的设置
您应该能够在运行connect standalone
的节点中运行connect distibured
我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题
是的,我建议不要将所有主题
捆绑到一个连接器中
如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录
这是我个人的建议,是的,他们可以,因为HDFS路径是由主题名命名的,进一步由分区方案分割
注:以下允许适用于所有其他存储连接器(S3和GCS)