如何使用Google dataflow python在数据(拼花地板)中按字段进行分区gs接收器

如何使用Google dataflow python在数据(拼花地板)中按字段进行分区gs接收器,python,google-cloud-storage,google-cloud-dataflow,apache-beam,dataflow,Python,Google Cloud Storage,Google Cloud Dataflow,Apache Beam,Dataflow,我试图从GS bucket读取数据,并将其输出到另一个GS bucket(按自定义列、到达日期进行分区)的另一个bucket中。数据是拼花格式的。正在寻找在数据流中运行的基于ApacheBeamPython的源代码 源数据有三列:组织、名称、到达时间 预期输出:组织、名称、到达时间到文件夹 # Instantiate a pipeline with all the pipeline options p = beam.Pipeline(options=options) #Processing

我试图从GS bucket读取数据,并将其输出到另一个GS bucket(按自定义列、到达日期进行分区)的另一个bucket中。数据是拼花格式的。正在寻找在数据流中运行的基于ApacheBeamPython的源代码

源数据有三列:组织、名称、到达时间 预期输出:组织、名称、到达时间到文件夹

# Instantiate a pipeline with all the pipeline options
p = beam.Pipeline(options=options)


#Processing and structure of pipeline 
p \
| 'Input: QueryTable' >> beam.io.Read(beam.io.BigQuerySource(
    query=known_args.bql,
    use_standard_sql=True)) \
| 'Output: Export to Parquet' >> beam.io.parquetio.WriteToParquet(
        file_path_prefix=known_args.output,
        schema=parquet_schema,
      file_name_suffix='.parquet'
    )

我正在寻找一个关于如何实现对按自定义列(本例中为org)分区的GS文件夹的写入的答案。

Hi@p.T,若您的问题与从BigQuery在GCS中写入有关,您可能需要查看。这里有一个Python示例。请记住,有一个,但我认为它不应该影响你。我不太熟悉Python SDK。我做了一个快速检查,没有看到一个清晰的API来实现您想要的。因此,您可以按列将数据预分区到不同的PCollection并将其写入扩展文件夹吗?您好@BraulioBron,谢谢您的帮助。实际上,我正在寻找dataflow/beam python实现,以便在基于自定义列的文件夹中编写拼花。您好@RuiWang,您能分享或向我指出有关预分区PCCollection和写入不同文件夹的源代码吗。。我希望这种安排也能够处理我正在处理的大量数据。它可以通过这种转换来完成(我在Java中找到了一种转换):。它只是从一个集合中创建更多的PCollection,然后您可以将这些PCollection单独写入您的bucket中。您好@P.T,若您的问题和从BigQuery在GCS中写入有关,您可能需要查看。这里有一个Python示例。请记住,有一个,但我认为它不应该影响你。我不太熟悉Python SDK。我做了一个快速检查,没有看到一个清晰的API来实现您想要的。因此,您可以按列将数据预分区到不同的PCollection并将其写入扩展文件夹吗?您好@BraulioBron,谢谢您的帮助。实际上,我正在寻找dataflow/beam python实现,以便在基于自定义列的文件夹中编写拼花。您好@RuiWang,您能分享或向我指出有关预分区PCCollection和写入不同文件夹的源代码吗。。我希望这种安排也能够处理我正在处理的大量数据。它可以通过这种转换来完成(我在Java中找到了一种转换):。它只是从一个PCollection中创建更多的PCollection,然后您可以将这些PCollection独立地写入您的bucket中。