有没有办法读取python apache beam中定义的文件列表之外的所有文件?
我的用例是在一个不断更新新文件的存储桶中批处理文件。我不想处理已经处理过的csv文件 有办法吗 我想到的一个潜在解决方案是,使用一个文本文件来维护已处理文件的列表,然后读取除已处理列表中的文件之外的所有csv文件。可能吗有没有办法读取python apache beam中定义的文件列表之外的所有文件?,python,google-cloud-dataflow,dataflow,apache-beam,Python,Google Cloud Dataflow,Dataflow,Apache Beam,我的用例是在一个不断更新新文件的存储桶中批处理文件。我不想处理已经处理过的csv文件 有办法吗 我想到的一个潜在解决方案是,使用一个文本文件来维护已处理文件的列表,然后读取除已处理列表中的文件之外的所有csv文件。可能吗 或者可以读取特定文件的列表吗 没有一种好的内置方法可以做到这一点,但是您可以使用管道的一个阶段,按照您的建议计算要读取的文件列表,即使用将文件名映射到文件内容的DoFn。有关如何编写此DoFn的信息,请参见。从2.2开始,Beam Java支持此操作-请参见
或者可以读取特定文件的列表吗 没有一种好的内置方法可以做到这一点,但是您可以使用管道的一个阶段,按照您的建议计算要读取的文件列表,即使用将文件名映射到文件内容的DoFn。有关如何编写此DoFn的信息,请参见。从2.2开始,Beam Java支持此操作-请参见