Amazon s3 S3接收器连接器的配置设置

Amazon s3 S3接收器连接器的配置设置,amazon-s3,apache-kafka,apache-kafka-connect,confluent-platform,Amazon S3,Apache Kafka,Apache Kafka Connect,Confluent Platform,我是S3接收器连接器的新手,我正在尝试为我的项目设置S3连接器。 我毫不怀疑: 配置中的flush.size有什么用途?如果我给它一个非常大的数字(2147483647),那么它将如何工作 rotate.interval.ms-如果我将其值设为1小时,它是如何工作的 rotate.schedule.interval.ms-如果使用此设置,是否会获得重复记录 提前谢谢 刷新大小决定了文件中预期记录数的上限;如果将其设置为大,则可能会耗尽Connect Worker上的内存/磁盘空间,或者每个分

我是S3接收器连接器的新手,我正在尝试为我的项目设置S3连接器。 我毫不怀疑:

  • 配置中的flush.size有什么用途?如果我给它一个非常大的数字(2147483647),那么它将如何工作
  • rotate.interval.ms-如果我将其值设为1小时,它是如何工作的
  • rotate.schedule.interval.ms-如果使用此设置,是否会获得重复记录

提前谢谢

刷新大小决定了文件中预期记录数的上限;如果将其设置为大,则可能会耗尽Connect Worker上的内存/磁盘空间,或者每个分区或旋转间隔都会有一个大文件

这两种设置在不同的时间间隔上运行,不应组合使用。如果您每小时轮换一次,您应该期望记录(谁的缓冲区大小将小于当时的刷新大小)会经常刷新

关于下一个问题,请参阅文档

设置rotate.schedule.interval.ms是不确定的,只会使一次无效


我这里有几个问题:1。我有10个主题要从中读取数据,我应该为每个主题创建多个接收器连接器,还是应该将它们全部包含在一个连接器中?2.如果我使用相同的连接器进行所有配置,我将在下面的配置中接收s3中的数据。“flush.size:“2147483647”旋转.间隔.ms:“3600000”3。所有主题的数据频率都是以GB为单位的,上面的配置是否能够处理负载,或者我是否应该尝试在配置中进行一些更改?您可以增加最大任务数,以便多个线程能够读取所有主题的所有分区。但是,如果一个主题由于任何原因无法读取,那么所有任务都将开始失败,那么将不会读取任何主题。因此,最好使用单独的连接器进行容错。数据大小其实并不重要