Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
有没有办法读取python apache beam中定义的文件列表之外的所有文件?_Python_Google Cloud Dataflow_Dataflow_Apache Beam - Fatal编程技术网

有没有办法读取python apache beam中定义的文件列表之外的所有文件?

有没有办法读取python apache beam中定义的文件列表之外的所有文件?,python,google-cloud-dataflow,dataflow,apache-beam,Python,Google Cloud Dataflow,Dataflow,Apache Beam,我的用例是在一个不断更新新文件的存储桶中批处理文件。我不想处理已经处理过的csv文件 有办法吗 我想到的一个潜在解决方案是,使用一个文本文件来维护已处理文件的列表,然后读取除已处理列表中的文件之外的所有csv文件。可能吗 或者可以读取特定文件的列表吗 没有一种好的内置方法可以做到这一点,但是您可以使用管道的一个阶段,按照您的建议计算要读取的文件列表,即使用将文件名映射到文件内容的DoFn。有关如何编写此DoFn的信息,请参见。从2.2开始,Beam Java支持此操作-请参见

我的用例是在一个不断更新新文件的存储桶中批处理文件。我不想处理已经处理过的csv文件

有办法吗

我想到的一个潜在解决方案是,使用一个文本文件来维护已处理文件的列表,然后读取除已处理列表中的文件之外的所有csv文件。可能吗


或者可以读取特定文件的列表吗

没有一种好的内置方法可以做到这一点,但是您可以使用管道的一个阶段,按照您的建议计算要读取的文件列表,即使用将文件名映射到文件内容的DoFn。有关如何编写此DoFn的信息,请参见。从2.2开始,Beam Java支持此操作-请参见