apachebeam数据流:从GCS读取多个拼花文件,并使用Java加载到大查询中
我想创建一个apachebeam数据流管道,它将从GCS bucket读取拼花文件并加载到BQ中。我可以指定数据集和表名,但不能指定模式。在ParquetIo中,它要求SCHEMA对象,我对此不是很确定。还与在ParquetIO中使用Avro相混淆?有谁能给我指点一下,或者给我举个例子吗apachebeam数据流:从GCS读取多个拼花文件,并使用Java加载到大查询中,java,google-cloud-platform,google-cloud-dataflow,apache-beam,parquet,Java,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,Parquet,我想创建一个apachebeam数据流管道,它将从GCS bucket读取拼花文件并加载到BQ中。我可以指定数据集和表名,但不能指定模式。在ParquetIo中,它要求SCHEMA对象,我对此不是很确定。还与在ParquetIO中使用Avro相混淆?有谁能给我指点一下,或者给我举个例子吗 提前谢谢 您可以分享您使用的Apache Beam版本吗?
提前谢谢 您可以分享您使用的Apache Beam版本吗?