Google cloud platform 扩展PubsubIO.Read重复数据消除窗口

Google cloud platform 扩展PubsubIO.Read重复数据消除窗口,google-cloud-platform,apache-beam,google-cloud-pubsub,dataflow,Google Cloud Platform,Apache Beam,Google Cloud Pubsub,Dataflow,如果在使用PubsubIO.Read时设置了记录ID标签,则当数据流接收到多个具有相同ID的消息时(将从属性中读取这些消息,该属性包含传递给idLabel的字符串名称),Dataflow将丢弃除一条消息外的所有消息。但是,Dataflow不会对具有相同记录ID值的消息执行重复数据消除,这些消息的发布间隔超过10分钟。” 看起来默认的重复数据消除窗口为10分钟。 是否有办法更改默认的重复数据消除窗口,例如20分钟?@guillaume blaquiere是正确的。到目前为止,重复数据消除窗口固定为

如果在使用PubsubIO.Read时设置了记录ID标签,则当数据流接收到多个具有相同ID的消息时(将从属性中读取这些消息,该属性包含传递给idLabel的字符串名称),Dataflow将丢弃除一条消息外的所有消息。但是,Dataflow不会对具有相同记录ID值的消息执行重复数据消除,这些消息的发布间隔超过10分钟。”

看起来默认的重复数据消除窗口为10分钟。
是否有办法更改默认的重复数据消除窗口,例如20分钟?

@guillaume blaquiere是正确的。到目前为止,重复数据消除窗口固定为10分钟。如果您愿意,您可以提交一份文件,并描述请求的性质。创建功能请求时,请确保单击“星形”。当星号累积时,可能会影响请求的优先级


再加上@guillaume blaquiere的建议,您可以在20分钟的窗口中使用。我认为这是平台中的内置功能,您无法更改此行为。另一种解决方案是使用20分钟的窗口,并在数据流管道期间在窗口中消除重复消息。