Hadoop 合流HDFS连接器:没有HDFS文件时,如何读取最新偏移量?

Hadoop 合流HDFS连接器:没有HDFS文件时,如何读取最新偏移量?,hadoop,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Hadoop,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我们有一个producer应用程序正在运行几天,正在向topicA生成数据。我们希望启动hdfs连接器从topicA读取数据,而不是从偏移量0读取数据(因为这将导致巨大的延迟)。我们希望从最新的偏移量开始(topicA一直有新数据) 1) 既然连接器从hdfs中的主题名称获取偏移量信息,那么既然hdfs中没有文件,我们如何读取最新的偏移量呢 2) 我能想到的一个选项是为每个分区手动创建具有最新偏移量的虚拟文件,但我们这里讨论的是topicA中的60个分区,那么有没有更优雅的方法来实现这一点?您可

我们有一个producer应用程序正在运行几天,正在向topicA生成数据。我们希望启动hdfs连接器从topicA读取数据,而不是从偏移量0读取数据(因为这将导致巨大的延迟)。我们希望从最新的偏移量开始(topicA一直有新数据)

1) 既然连接器从hdfs中的主题名称获取偏移量信息,那么既然hdfs中没有文件,我们如何读取最新的偏移量呢


2) 我能想到的一个选项是为每个分区手动创建具有最新偏移量的虚拟文件,但我们这里讨论的是topicA中的60个分区,那么有没有更优雅的方法来实现这一点?

您可以设置此属性,使您的connect用户组从主题中的最新可用偏移量开始

consumer.auto.offset.reset=latest

尽管,Connect通常能很快地处理一个大型集群和每个分区一个任务,因此从最早的开始应该不会太糟糕

您可以设置此属性,使Connect的使用者组从主题中最新的可用偏移量开始

consumer.auto.offset.reset=latest
尽管Connect通常能很快地处理一个大型集群和每个分区一个任务,因此从最早的开始应该不会那么糟糕,但HDFS连接器在HDFS中没有文件名的情况下重置为最新提交的偏移量的功能最近才被添加

您将在4.0.1或4.1.0及更高版本中找到它

HDFS连接器是一个接收器连接器,可自行管理使用者偏移量。这样做的目的是在将文件导出到HDFS时实现一次语义。在上述之前的版本中,如果连接器在HDFS中找不到任何文件,它将从主题的最早偏移量开始使用,而不考虑任何使用者设置

您可以在此处找到相关更改,这些更改现在允许连接器在HDFS中没有文件的情况下查阅提交的偏移量:

,HDFS连接器在HDFS中没有文件名的情况下重置为最新提交的偏移量的功能最近被添加

您将在4.0.1或4.1.0及更高版本中找到它

HDFS连接器是一个接收器连接器,可自行管理使用者偏移量。这样做的目的是在将文件导出到HDFS时实现一次语义。在上述之前的版本中,如果连接器在HDFS中找不到任何文件,它将从主题的最早偏移量开始使用,而不考虑任何使用者设置

您可以在此处找到相关更改,这些更改现在允许连接器在HDFS中没有文件的情况下查阅提交的偏移量:


谢谢!我把这个放在哪里?我尝试在连接器属性文件中设置它,但我仍然在
ConsumerConfig values
中看到
auto.offset.reset=earliest
,我个人在Worker属性中设置了它,但您也应该能够在特定任务属性中设置它。注意:我只测试了S3 ConnectOK。我可以在worker属性文件中设置它,它显示在consumerconfig上。我删除了所有hdfs文件(因此文件名中没有偏移量信息),启动了connector,但仍然看到它从偏移量0读取,而不是从最后一个偏移量读取。我使用--description选项运行了
bin/kafka消费群体
,以检查当前的偏移量。您使用的是哪个版本的Confluent?我认为4.0重构了一些HDFS逻辑我正在使用4.0.0版本的ConfluentThank!我把这个放在哪里?我尝试在连接器属性文件中设置它,但我仍然在
ConsumerConfig values
中看到
auto.offset.reset=earliest
,我个人在Worker属性中设置了它,但您也应该能够在特定任务属性中设置它。注意:我只测试了S3 ConnectOK。我可以在worker属性文件中设置它,它显示在consumerconfig上。我删除了所有hdfs文件(因此文件名中没有偏移量信息),启动了connector,但仍然看到它从偏移量0读取,而不是从最后一个偏移量读取。我使用--description选项运行了
bin/kafka消费群体
,以检查当前的偏移量。您使用的是哪个版本的Confluent?我认为4.0重构了一些HDFS逻辑,我正在使用4.0.0版本的Confluent