如何使用Google dataflow python在数据（拼花地板）中按字段进行分区gs接收器_Python_Google Cloud Storage_Google Cloud Dataflow_Apache Beam_Dataflow

如何使用Google dataflow python在数据（拼花地板）中按字段进行分区gs接收器

python google-cloud-storage google-cloud-dataflow

如何使用Google dataflow python在数据（拼花地板）中按字段进行分区gs接收器,python,google-cloud-storage,google-cloud-dataflow,apache-beam,dataflow,Python,Google Cloud Storage,Google Cloud Dataflow,Apache Beam,Dataflow,我试图从GS bucket读取数据，并将其输出到另一个GS bucket（按自定义列、到达日期进行分区）的另一个bucket中。数据是拼花格式的。正在寻找在数据流中运行的基于ApacheBeamPython的源代码源数据有三列：组织、名称、到达时间预期输出：组织、名称、到达时间到文件夹 # Instantiate a pipeline with all the pipeline options p = beam.Pipeline(options=options) #Processing

我试图从GS bucket读取数据，并将其输出到另一个GS bucket（按自定义列、到达日期进行分区）的另一个bucket中。数据是拼花格式的。正在寻找在数据流中运行的基于ApacheBeamPython的源代码

源数据有三列：组织、名称、到达时间预期输出：组织、名称、到达时间到文件夹

# Instantiate a pipeline with all the pipeline options
p = beam.Pipeline(options=options)


#Processing and structure of pipeline 
p \
| 'Input: QueryTable' >> beam.io.Read(beam.io.BigQuerySource(
    query=known_args.bql,
    use_standard_sql=True)) \
| 'Output: Export to Parquet' >> beam.io.parquetio.WriteToParquet(
        file_path_prefix=known_args.output,
        schema=parquet_schema,
      file_name_suffix='.parquet'
    )

我正在寻找一个关于如何实现对按自定义列（本例中为org）分区的GS文件夹的写入的答案。

Hi@p.T，若您的问题与从BigQuery在GCS中写入有关，您可能需要查看。这里有一个Python示例。请记住，有一个，但我认为它不应该影响你。我不太熟悉Python SDK。我做了一个快速检查，没有看到一个清晰的API来实现您想要的。因此，您可以按列将数据预分区到不同的PCollection并将其写入扩展文件夹吗？您好@BraulioBron，谢谢您的帮助。实际上，我正在寻找dataflow/beam python实现，以便在基于自定义列的文件夹中编写拼花。您好@RuiWang，您能分享或向我指出有关预分区PCCollection和写入不同文件夹的源代码吗。。我希望这种安排也能够处理我正在处理的大量数据。它可以通过这种转换来完成（我在Java中找到了一种转换）：。它只是从一个集合中创建更多的PCollection，然后您可以将这些PCollection单独写入您的bucket中。您好@P.T，若您的问题和从BigQuery在GCS中写入有关，您可能需要查看。这里有一个Python示例。请记住，有一个，但我认为它不应该影响你。我不太熟悉Python SDK。我做了一个快速检查，没有看到一个清晰的API来实现您想要的。因此，您可以按列将数据预分区到不同的PCollection并将其写入扩展文件夹吗？您好@BraulioBron，谢谢您的帮助。实际上，我正在寻找dataflow/beam python实现，以便在基于自定义列的文件夹中编写拼花。您好@RuiWang，您能分享或向我指出有关预分区PCCollection和写入不同文件夹的源代码吗。。我希望这种安排也能够处理我正在处理的大量数据。它可以通过这种转换来完成（我在Java中找到了一种转换）：。它只是从一个PCollection中创建更多的PCollection，然后您可以将这些PCollection独立地写入您的bucket中。