Google cloud dataflow 在处理输入文件模式时,如何在ApacheBeam的DoFn中获取文件名

Google cloud dataflow 在处理输入文件模式时,如何在ApacheBeam的DoFn中获取文件名,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我正在处理一个目录中的大量文件。我想在已处理数据输出的元数据中添加文件名。因此,如果在处理过程中出现问题,我们可以检查已处理记录的输入文件是什么 有没有办法在DoFn中获取文件名。我使用的是ApacheBeam2.19.0版本 输入文件位置-gs://bucket/extracted files/*您可以使用中提供的转换来实现此目的 特别是,您可以使用FileIO.match后跟FileIO.readMatches,这将导致对ReadableFile对象的PCollection。对于每个可读文件

我正在处理一个目录中的大量文件。我想在已处理数据输出的元数据中添加文件名。因此,如果在处理过程中出现问题,我们可以检查已处理记录的输入文件是什么

有没有办法在DoFn中获取文件名。我使用的是ApacheBeam2.19.0版本


输入文件位置-gs://bucket/extracted files/*

您可以使用中提供的转换来实现此目的

特别是,您可以使用FileIO.match后跟FileIO.readMatches,这将导致对ReadableFile对象的PCollection。对于每个可读文件,您都可以访问用于读取的字节通道以及包含文件名的元数据对象