Apache kafka Kafka connect在单个分区上基于大小的滚动和基于时间的滚动_Apache Kafka_Hdfs_Apache Kafka Connect_Confluent Platform

Apache kafka Kafka connect在单个分区上基于大小的滚动和基于时间的滚动

apache-kafka

Apache kafka Kafka connect在单个分区上基于大小的滚动和基于时间的滚动,apache-kafka,hdfs,apache-kafka-connect,confluent-platform,Apache Kafka,Hdfs,Apache Kafka Connect,Confluent Platform,我使用Kafka connect将文件接收到HDFS，Kafka connect有TopicPartitionWriter，它可以按时滚动到所有分区，并且没有基于大小的滚动我想对每个分区进行基于大小和基于时间的滚动，但因为通过每个分区的数据不一致，所以文件大小也相似 2个问题： 1.如果我试图通过更改卡夫卡连接中的大量代码来实现这一点，那么会失去原始设计吗？ 2.有没有为我的用例做过什么 TopicPartitionWriter，它会按时滚动到所有分区，并且没有基于大小的滚动 flush.si

我使用Kafka connect将文件接收到HDFS，Kafka connect有TopicPartitionWriter，它可以按时滚动到所有分区，并且没有基于大小的滚动

我想对每个分区进行基于大小和基于时间的滚动，但因为通过每个分区的数据不一致，所以文件大小也相似

2个问题： 1.如果我试图通过更改卡夫卡连接中的大量代码来实现这一点，那么会失去原始设计吗？ 2.有没有为我的用例做过什么

TopicPartitionWriter，它会按时滚动到所有分区，并且没有基于大小的滚动

flush.size

仍然（并且始终）使用

如果我试图通过更改Kafka connect中的大量代码来实现这一点，那么会丢失原始设计

没有？只要数据从Kafka传输到某个外部系统，这就是Connect Sink API提供的唯一契约

有没有为我的用例做过什么

扫描Github repo的问题和PRs

flush.size controls#of records，但如果不是所有消息都具有相同的字节，那么我将在HFSCORECT中以不同大小的文件结束。这是没有办法的，阿福。只要文件大于HDFS块大小，这有关系吗？我在附加模式下使用了序列文件，并根据临时文件大小进行刷新