Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用Spark BigQueryConnector读取大查询_Apache Spark_Google Cloud Platform_Google Bigquery - Fatal编程技术网

Apache spark 使用Spark BigQueryConnector读取大查询

Apache spark 使用Spark BigQueryConnector读取大查询,apache-spark,google-cloud-platform,google-bigquery,Apache Spark,Google Cloud Platform,Google Bigquery,我想使用spark big query connector读取一个大查询,并将分区信息传递给它。这工作很好,但它可以读取整个表格。我想根据一些分区值过滤数据。我怎么做?我不想读取完整的表,然后对spark数据集应用过滤器。我希望在读取自身时传递分区信息。这可能吗 Dataset<Row> testDS = session.read().format("bigquery") .option("table"

我想使用spark big query connector读取一个大查询,并将分区信息传递给它。这工作很好,但它可以读取整个表格。我想根据一些分区值过滤数据。我怎么做?我不想读取完整的表,然后对spark数据集应用过滤器。我希望在读取自身时传递分区信息。这可能吗

 Dataset<Row> testDS = session.read().format("bigquery")
                    .option("table", <TABLE>)
                    //.option("partition",<PARTITION>)
                    .option("project", <PROJECT_ID>)
                    .option("parentProject", <PROJECT_ID>)
                    .load();
Dataset testDS=session.read().format(“bigquery”)
.选项(“表”,)
//.选项(“分区”,)
.选项(“项目”)
.选项(“父项目”)
.load();

过滤器就是这样工作的。选项(“过滤器”,“分区时间='2020-11-23 13:00:00'”)

这正是应该做的。在读取之前应用过滤器。你能帮我吗@DavidraBinowitz有关可用的配置属性,请参阅