Apache kafka Kafka connect在单个分区上基于大小的滚动和基于时间的滚动

Apache kafka Kafka connect在单个分区上基于大小的滚动和基于时间的滚动,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我使用Kafka connect将文件接收到HDFS,Kafka connect有TopicPartitionWriter,它可以按时滚动到所有分区,并且没有基于大小的滚动 我想对每个分区进行基于大小和基于时间的滚动,但因为通过每个分区的数据不一致,所以文件大小也相似 2个问题: 1.如果我试图通过更改卡夫卡连接中的大量代码来实现这一点,那么会失去原始设计吗? 2.有没有为我的用例做过什么 TopicPartitionWriter,它会按时滚动到所有分区,并且没有基于大小的滚动 flush.si

我使用Kafka connect将文件接收到HDFS,Kafka connect有TopicPartitionWriter,它可以按时滚动到所有分区,并且没有基于大小的滚动

我想对每个分区进行基于大小和基于时间的滚动,但因为通过每个分区的数据不一致,所以文件大小也相似

2个问题: 1.如果我试图通过更改卡夫卡连接中的大量代码来实现这一点,那么会失去原始设计吗? 2.有没有为我的用例做过什么

TopicPartitionWriter,它会按时滚动到所有分区,并且没有基于大小的滚动

flush.size
仍然(并且始终)使用

如果我试图通过更改Kafka connect中的大量代码来实现这一点,那么会丢失原始设计

没有?只要数据从Kafka传输到某个外部系统,这就是Connect Sink API提供的唯一契约

有没有为我的用例做过什么


扫描Github repo的问题和PRs

flush.size controls#of records,但如果不是所有消息都具有相同的字节,那么我将在HFSCORECT中以不同大小的文件结束。这是没有办法的,阿福。只要文件大于HDFS块大小,这有关系吗?我在附加模式下使用了序列文件,并根据临时文件大小进行刷新