Google cloud platform ApacheBeam-从目录中读取所有文件

Google cloud platform ApacheBeam-从目录中读取所有文件,google-cloud-platform,apache-beam,Google Cloud Platform,Apache Beam,我有一个数据流管道,我使用下面的AvroIO方法读取具有已知模式的特定avro文件 但是,我希望在管道中递归地读取目录中与文件扩展名模式匹配的所有文件,而不是读取单个文件。。这方面需要帮助吗 pipeline.apply("Read from Avro", AvroIO.readGenericRecords(schema).from("gcs://test/test.avro") 正如@Kolban所建议的,“from()”接受通配符,正如第行在源代码中所建议的那样。看来from()可以指定

我有一个数据流管道,我使用下面的AvroIO方法读取具有已知模式的特定avro文件

但是,我希望在管道中递归地读取目录中与文件扩展名模式匹配的所有文件,而不是读取单个文件。。这方面需要帮助吗

pipeline.apply("Read from Avro",
 AvroIO.readGenericRecords(schema).from("gcs://test/test.avro")

正如@Kolban所建议的,“from()”接受通配符,正如第行在源代码中所建议的那样。

看来from()可以指定通配符。您能否详细说明您希望使用的AVRO文件的模式?如果IO中缺少此功能,另一个可能的一般想法是,您可以首先通过ParDo读取目录中的所有文件名,然后输出所有文件的名称/路径以进行并行读取。