Hadoop 使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差

Hadoop 使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差,hadoop,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Hadoop,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我正在尝试查找hdfs接收器连接器的延迟。我总共有140000条信息 我触发了curl命令来创建刷新大小为200000的hdfs接收器连接器。 第一次完成这项任务几乎花了11分钟。 在检查日志之后,我知道还有其他连接器在运行,因此在下一轮测试中,我删除了所有其他连接器,并删除了hdfs目录、log目录、+tmp目录。 我还删除了以前的连接器,并运行curl命令,将新的连接器名称和刷新大小设置为相同的200000条消息。这一次,在20秒内,所有消息都在hdfs目录中。有人能解释一下为什么有如此奇怪

我正在尝试查找hdfs接收器连接器的延迟。我总共有140000条信息 我触发了curl命令来创建刷新大小为200000的hdfs接收器连接器。 第一次完成这项任务几乎花了11分钟。 在检查日志之后,我知道还有其他连接器在运行,因此在下一轮测试中,我删除了所有其他连接器,并删除了hdfs目录、log目录、+tmp目录。 我还删除了以前的连接器,并运行curl命令,将新的连接器名称和刷新大小设置为相同的200000条消息。这一次,在20秒内,所有消息都在hdfs目录中。有人能解释一下为什么有如此奇怪的处理时间间隔吗。第一次对同一个主题进行测试大约需要11分钟,在下一次测试中,它在20秒内完成

连接器属性:
{“name”:“resetperf_2”,“config”:{“connector.class”:“io.confluent.connect.hdfs.HdfsSinkConnector”,“flush.size”:“200000”,“tasks.max”:“15”,“topics”:“resetperf”,“hdfs.url”:hdfs://hostname:8020/topics“,”名称“:”RetestPerf_2“},“任务“:[{”连接器“:”RetestPerf_2“,”任务“:”0},{”连接器“:”RetestPerf_2“,”任务“:”1},{”连接器“:”RetestPerf_2“,”任务“:”2}{“连接器”:“再测试2”,“任务”:3},{“连接器”:“再测试2”,“任务”:4},{“连接器”:“再测试2”,“任务”:5},{“连接器”:“再测试2”,“任务”:6},{“连接器”:“再测试2”,“任务”:7},{“连接器”:“再测试2”,“任务”:8},{“连接器”:“再测试2”,“任务”:9},{“连接器”:“再测试2”,“任务”:10},{“连接器”:“再测试2”,“任务”:11}”连接器“:“RetestPerf_2”,“任务”:12},{”连接器“:“RetestPerf_2”,“任务”:13},{”连接器“:“RetestPerf_2”,“任务”:14}”[

请将您的连接属性添加到问题您好,我已经编辑并添加了我的连接器属性。请注意,根据问题,15项任务非常多,您只需要7项。并且您正在使用所有默认的分区器属性?在您第二次启动连接时,消费者组已经被赶上了……因为您删除了hdf的文件并不意味着它将从头开始