Google cloud dataflow ApacheBeam:在PCollection中读取管道的PBegin

Google cloud dataflow ApacheBeam:在PCollection中读取管道的PBegin,google-cloud-dataflow,apache-beam,apache-beam-io,Google Cloud Dataflow,Apache Beam,Apache Beam Io,我正在调试这个beam管道,我的最终目标是将PCollection中的所有字符串写入文本文件 我在创建我要检查的PCollection之后的点上设置了一个断点,我一直在尝试创建一个新的 读入此输出PCollection作为初始输入 将其打印到文件(使用`TextIO.write().to(“/Users/my/local/fp”)) 我正在努力学习如何将PCollection作为初始输入读取 我一直在尝试的要点: Pipeline p2 = Pipeline.create(); p2.apply

我正在调试这个beam管道,我的最终目标是将PCollection中的所有字符串写入文本文件

我在创建我要检查的PCollection之后的点上设置了一个断点,我一直在尝试创建一个新的

  • 读入此
    输出
    PCollection作为初始输入
  • 将其打印到文件(使用`TextIO.write().to(“/Users/my/local/fp”))
  • 我正在努力学习如何将PCollection作为初始输入读取

    我一直在尝试的要点:

    Pipeline p2 = Pipeline.create();
    p2.apply(// READ IN THE PCOLLECTION HERE)
      .apply(TextIO.write().to("/Users/my/local/fp")));
    p2.run()
    

    如果您有任何想法或建议,我们将不胜感激

    为了将一个pcollection读入输入,您需要从一个来源读取它。例如,一些数据存储在BigQuery、Google云存储等中。您可以使用特定的源转换从这些位置读取。根据您存储数据的位置,您需要使用正确的源并传入相关参数(即GCS路径、BigQuery表)

    请查看apache beam网站()上的。我建议从这段代码开始,在构建所需的管道之前对其进行迭代

    在本例中,从GCS读取文件

    p.apply(TextIO.read().from("gs://apache-beam-samples/shakespeare/*"))
    
    请同时查看这张表和这张清单。如果您只想让一个基本示例工作,可以使用从程序中读取变量