Hadoop 使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差_Hadoop_Apache Kafka_Hdfs_Apache Kafka Connect_Confluent Platform

Hadoop 使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差

hadoop apache-kafka

Hadoop 使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差,hadoop,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Hadoop,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我正在尝试查找hdfs接收器连接器的延迟。我总共有140000条信息我触发了curl命令来创建刷新大小为200000的hdfs接收器连接器。第一次完成这项任务几乎花了11分钟。在检查日志之后，我知道还有其他连接器在运行，因此在下一轮测试中，我删除了所有其他连接器，并删除了hdfs目录、log目录、+tmp目录。我还删除了以前的连接器，并运行curl命令，将新的连接器名称和刷新大小设置为相同的200000条消息。这一次，在20秒内，所有消息都在hdfs目录中。有人能解释一下为什么有如此奇怪

我正在尝试查找hdfs接收器连接器的延迟。我总共有140000条信息我触发了curl命令来创建刷新大小为200000的hdfs接收器连接器。第一次完成这项任务几乎花了11分钟。在检查日志之后，我知道还有其他连接器在运行，因此在下一轮测试中，我删除了所有其他连接器，并删除了hdfs目录、log目录、+tmp目录。我还删除了以前的连接器，并运行curl命令，将新的连接器名称和刷新大小设置为相同的200000条消息。这一次，在20秒内，所有消息都在hdfs目录中。有人能解释一下为什么有如此奇怪的处理时间间隔吗。第一次对同一个主题进行测试大约需要11分钟，在下一次测试中，它在20秒内完成

连接器属性：

{“name”：“resetperf_2”，“config”：{“connector.class”：“io.confluent.connect.hdfs.HdfsSinkConnector”，“flush.size”：“200000”，“tasks.max”：“15”，“topics”：“resetperf”，“hdfs.url”：hdfs://hostname:8020/topics“，”名称“：”RetestPerf_2“}，“任务“：[{”连接器“：”RetestPerf_2“，”任务“：”0}，{”连接器“：”RetestPerf_2“，”任务“：”1}，{”连接器“：”RetestPerf_2“，”任务“：”2}{“连接器”：“再测试2”，“任务”：3}，{“连接器”：“再测试2”，“任务”：4}，{“连接器”：“再测试2”，“任务”：5}，{“连接器”：“再测试2”，“任务”：6}，{“连接器”：“再测试2”，“任务”：7}，{“连接器”：“再测试2”，“任务”：8}，{“连接器”：“再测试2”，“任务”：9}，{“连接器”：“再测试2”，“任务”：10}，{“连接器”：“再测试2”，“任务”：11}”连接器“：“RetestPerf_2”，“任务”：12}，{”连接器“：“RetestPerf_2”，“任务”：13}，{”连接器“：“RetestPerf_2”，“任务”：14}”[

请将您的连接属性添加到问题您好，我已经编辑并添加了我的连接器属性。请注意，根据问题，15项任务非常多，您只需要7项。并且您正在使用所有默认的分区器属性？在您第二次启动连接时，消费者组已经被赶上了……因为您删除了hdf的文件并不意味着它将从头开始