Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/visual-studio-2010/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache kafka 带窗口联接的Kafka流数据的初始加载_Apache Kafka_Apache Kafka Streams_Apache Kafka Connect - Fatal编程技术网

Apache kafka 带窗口联接的Kafka流数据的初始加载

Apache kafka 带窗口联接的Kafka流数据的初始加载,apache-kafka,apache-kafka-streams,apache-kafka-connect,Apache Kafka,Apache Kafka Streams,Apache Kafka Connect,我在两个流之间使用窗口连接,比如说7天窗口 初始加载时,数据库中的所有记录(通过kafka connect源连接器)都将加载到流中。因此,在最初的7天内,似乎所有记录都在窗口状态存储中,因为生产者/摄取的时间戳都在当前时间,而消息值中可能有一个字段(如create_time) 是否有一种推荐的方法来平衡连接窗口的初始负载 好吧,问题是你想加入哪些记录?以及源连接器设置为记录时间戳的时间戳(也可能取决于主题配置,[log.]message.timestamp.type) 连接是基于时间戳提取器返回

我在两个流之间使用窗口连接,比如说7天窗口

初始加载时,数据库中的所有记录(通过kafka connect源连接器)都将加载到流中。因此,在最初的7天内,似乎所有记录都在窗口状态存储中,因为生产者/摄取的时间戳都在当前时间,而消息值中可能有一个字段(如create_time)


是否有一种推荐的方法来平衡连接窗口的初始负载

好吧,问题是你想加入哪些记录?以及源连接器设置为记录时间戳的时间戳(也可能取决于主题配置,
[log.]message.timestamp.type

连接是基于
时间戳提取器
返回的任何内容执行的。默认情况下,这是记录时间戳。如果您想基于其他时间戳执行连接,可以使用自定义时间戳提取器


如果你想获得处理时间语义,你可能想使用
WallClockTimesExtractor

你用哪个TimesExtractor作为窗口?目前是默认的。我想替换它并替换create_time值,但后来我想它会在时间窗口之外,并且如果我有记录A,记录A的日期是1年前,记录B的日期是上周…如果我使用自定义时间戳提取程序,窗口为一个月…A和A'将匹配B/c,它们的时间戳日期在一个月内,B和B'也将匹配B/c日期之间的间隔不超过一个月?我只是说,如果您实际需要的是一个月而不是所有数据,则需要调整该设置