Hadoop 确保在Kafka Connect中只交付一次

Hadoop 确保在Kafka Connect中只交付一次,hadoop,apache-kafka,apache-kafka-connect,Hadoop,Apache Kafka,Apache Kafka Connect,您是否知道是否有可能,如果有,使用kafka connect和kafka确保一次交付到hdfs的最佳方式是什么 我知道Kafka connect试图在“消费者偏移量”中为其消费者组查找偏移量,但我需要额外检查,因为重复项是不可接受的HDFS connect已声明通过在HDFS中使用预写日志只支持一次。当重新启动connect时,它实际上会检查该日志,除非最近更改了逻辑,而不是偏移量主题,HDFS connect已经声称通过在HDFS中使用预写日志只支持一次。当重新启动connect时,它实际上会

您是否知道是否有可能,如果有,使用kafka connect和kafka确保一次交付到hdfs的最佳方式是什么


我知道Kafka connect试图在“消费者偏移量”中为其消费者组查找偏移量,但我需要额外检查,因为重复项是不可接受的

HDFS connect已声明通过在HDFS中使用预写日志只支持一次。当重新启动connect时,它实际上会检查该日志,除非最近更改了逻辑,而不是偏移量主题,HDFS connect已经声称通过在HDFS中使用预写日志只支持一次。当重新启动connect时,它实际上会检查该日志,除非最近更改了逻辑,而不是偏移量主题。当连接器将文件写入HDFS时,它首先将文件写入临时文件,然后将临时文件重命名为最终文件。此最终文件的命名具有该文件中存在的偏移量。因此,当connect启动时,它会查看HDFS并找到最新提交的偏移量,该偏移量应保证一次性交付。如果在hdfs中找不到偏移量,则它允许使用者偏移重置策略。请查看并了解更多信息。当连接器将文件写入hdfs时,它首先将文件写入临时文件,WAL用于重播,然后将临时文件重命名为最终文件。此最终文件的命名具有该文件中存在的偏移量。因此,当connect启动时,它会查看HDFS并找到最新提交的偏移量,该偏移量应保证一次性交付。如果在hdfs中找不到偏移量,则它允许使用者偏移重置策略。请查看并了解更多信息,您所说的日志是指最新的hdfs文件?有多个文件。有一个日志文件可以连接HDFS上的写操作,以及临时文件和最终文件,在这些文件中,您的数据将通过日志写入。您是指最新的HDFS文件吗?有多个文件。有一个日志文件可以连接HDF上的写操作,以及写入数据的临时和最终文件