Apache spark “线程中的异常”；“主要”；org.apache.spark.sql.AnalysisException:路径不存在_Apache Spark_Apache Spark Sql_Google Cloud Storage_Dataproc

Apache spark “线程中的异常”；“主要”；org.apache.spark.sql.AnalysisException:路径不存在

apache-spark google-cloud-storage

Apache spark “线程中的异常”；“主要”；org.apache.spark.sql.AnalysisException:路径不存在,apache-spark,apache-spark-sql,google-cloud-storage,dataproc,Apache Spark,Apache Spark Sql,Google Cloud Storage,Dataproc,我在Google dataproc cluster 1.4版和spark 2.4.5版中运行spark作业，该作业从GS bucket读取路径中包含正则表达式的文件，并获得以下错误 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat; at org.ap

我在Google dataproc cluster 1.4版和spark 2.4.5版中运行spark作业，该作业从GS bucket读取路径中包含正则表达式的文件，并获得以下错误

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:552)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)

线程“main”org.apache.spark.sql.AnalysisException中的异常：路径不存在：gs://\ud*.dat；在org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$datasources$$checkandglobpathif needed$1.apply（DataSource.scala:552）在org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$datasources$$checkandglobpathif needed$1.apply（DataSource.scala:545）我能够在带有spark版本2.2.3的dataproc 1.2集群中运行相同的作业，并且能够从路径读取文件

spark 2.4.5中正则表达式的生成方式是否有任何改变，或者dataproc 1.4 cluster的google api是否有任何改变，这需要改变我使用正则表达式创建这些路径的方式。

在通过设置这些Hadoop禁用GCS连接器中的flat glob算法后，问题得到解决创建群集期间的属性

核心：fs.gs.glob.flatlist.enable=false

core:fs.gs.glob.concurrent.enable=false

我们还将GCS_CONNECTOR_版本从1.9.17升级到1.9.18。

在群集创建过程中通过设置这些Hadoop属性禁用GCS连接器中的flat glob算法后，问题得到解决

核心：fs.gs.glob.flatlist.enable=false

core:fs.gs.glob.concurrent.enable=false

我们还将GCS_CONNECTOR_版本从1.9.17升级到1.9.18。

您能分享您的代码以便我进一步调查吗？与谷歌支持部门合作后，我被要求通过在集群核心期间设置这些Hadoop属性来禁用GCS连接器中的扁平glob算法：fs.gs.glob.flatlist.enable=false核心：fs.gs.glob.concurrent.enable=false我们还将GCS_连接器的版本从1.9.17升级到了1.9.18。在创建dataproc群集时设置这些属性后，上述问题得到解决。您能否共享您的代码以便我进一步调查？在与google支持部门合作后，我被要求通过在集群核心期间设置这些Hadoop属性来禁用GCS连接器中的扁平glob算法：fs.gs.glob.flatlist.enable=false核心：fs.gs.glob.concurrent.enable=false我们还将GCS_连接器的版本从1.9.17升级到了1.9.18。在创建dataproc集群时设置这些属性后，上述问题得到解决。