Apache kafka Kafka Connect:多个独立连接器是否可以写入同一HDFS目录?

Apache kafka Kafka Connect:多个独立连接器是否可以写入同一HDFS目录?,apache-kafka,hdfs,apache-kafka-connect,Apache Kafka,Hdfs,Apache Kafka Connect,对于我们的管道,我们有大约40个主题(每个10-25个分区),我们希望在独立模式下使用HDFS 3接收器连接器将它们写入相同的HDFS目录(分布式不适用于我们当前的设置)。我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题 如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录?由于连接器然后按主题组织HDFS中的所有文件,我认为这不应该是一个问题,但我想知道是否有人有过这种设置的经验 基本示例: 连接器-1配置 name=connect-

对于我们的管道,我们有大约40个主题(每个10-25个分区),我们希望在独立模式下使用HDFS 3接收器连接器将它们写入相同的HDFS目录(分布式不适用于我们当前的设置)。我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题

如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录?由于连接器然后按主题组织HDFS中的所有文件,我认为这不应该是一个问题,但我想知道是否有人有过这种设置的经验

基本示例: 连接器-1配置

name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput
连接器-2配置

name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput
分布式不适用于我们当前的设置

您应该能够在运行
connect standalone
的节点中运行
connect distibured

我们已尝试在一个连接器上运行所有主题,但如果需要重新启动,则在恢复偏移量时会遇到问题

是的,我建议不要将所有
主题
捆绑到一个连接器中

如果我们在不同的独立连接器之间划分主题,它们是否都可以写入相同的HDFS目录

这是我个人的建议,是的,他们可以,因为HDFS路径是由主题名命名的,进一步由分区方案分割


注:以下允许适用于所有其他存储连接器(S3和GCS)