Apache spark “线程中的异常”;“主要”;org.apache.spark.sql.AnalysisException:路径不存在

Apache spark “线程中的异常”;“主要”;org.apache.spark.sql.AnalysisException:路径不存在,apache-spark,apache-spark-sql,google-cloud-storage,dataproc,Apache Spark,Apache Spark Sql,Google Cloud Storage,Dataproc,我在Google dataproc cluster 1.4版和spark 2.4.5版中运行spark作业,该作业从GS bucket读取路径中包含正则表达式的文件,并获得以下错误 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat; at org.ap

我在Google dataproc cluster 1.4版和spark 2.4.5版中运行spark作业,该作业从GS bucket读取路径中包含正则表达式的文件,并获得以下错误

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:552)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)
线程“main”org.apache.spark.sql.AnalysisException中的异常:路径不存在:gs://\ud*.dat; 在org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$datasources$$checkandglobpathif needed$1.apply(DataSource.scala:552) 在org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$datasources$$checkandglobpathif needed$1.apply(DataSource.scala:545) 我能够在带有spark版本2.2.3的dataproc 1.2集群中运行相同的作业,并且能够从路径读取文件


spark 2.4.5中正则表达式的生成方式是否有任何改变,或者dataproc 1.4 cluster的google api是否有任何改变,这需要改变我使用正则表达式创建这些路径的方式。

在通过设置这些Hadoop禁用GCS连接器中的flat glob算法后,问题得到解决创建群集期间的属性

核心:fs.gs.glob.flatlist.enable=false

core:fs.gs.glob.concurrent.enable=false


我们还将GCS_CONNECTOR_版本从1.9.17升级到1.9.18。

在群集创建过程中通过设置这些Hadoop属性禁用GCS连接器中的flat glob算法后,问题得到解决

核心:fs.gs.glob.flatlist.enable=false

core:fs.gs.glob.concurrent.enable=false


我们还将GCS_CONNECTOR_版本从1.9.17升级到1.9.18。

您能分享您的代码以便我进一步调查吗?与谷歌支持部门合作后,我被要求通过在集群核心期间设置这些Hadoop属性来禁用GCS连接器中的扁平glob算法:fs.gs.glob.flatlist.enable=false核心:fs.gs.glob.concurrent.enable=false我们还将GCS_连接器的版本从1.9.17升级到了1.9.18。在创建dataproc群集时设置这些属性后,上述问题得到解决。您能否共享您的代码以便我进一步调查?在与google支持部门合作后,我被要求通过在集群核心期间设置这些Hadoop属性来禁用GCS连接器中的扁平glob算法:fs.gs.glob.flatlist.enable=false核心:fs.gs.glob.concurrent.enable=false我们还将GCS_连接器的版本从1.9.17升级到了1.9.18。在创建dataproc集群时设置这些属性后,上述问题得到解决。