Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/wix/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud dataproc 在Google dataproc中将文件直接写入Google存储时,在Google dataproc的pyspark作业中获得警告_Google Cloud Dataproc - Fatal编程技术网

Google cloud dataproc 在Google dataproc中将文件直接写入Google存储时,在Google dataproc的pyspark作业中获得警告

Google cloud dataproc 在Google dataproc中将文件直接写入Google存储时,在Google dataproc的pyspark作业中获得警告,google-cloud-dataproc,Google Cloud Dataproc,spark job在写入google storage时创建的每个零件文件都会收到以下警告: 17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698 17/08/01 11:31:47 WARN com.goo

spark job在写入google storage时创建的每个零件文件都会收到以下警告:

17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698
17/08/01 11:31:47 WARN com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Possible stale CacheEntry; failed to fetch item info for: gs://temp_bucket/output/part-09698 - removing from cache
火花作业有10个阶段,此警告出现在9个阶段之后。由于spark作业正在创建约11500个零件文件。此警告适用于~11500个零件文件中的每个文件。由于这个警告,我的spark工作额外运行了15分钟,因为我运行了大约80个这样的工作。我浪费了很多时间,付出了很多代价


有没有办法抑制此警告?

最近的更改使完全禁用强制列表一致性变得安全;预计未来的版本将逐步淘汰。在作业属性中尝试以下操作以禁用CacheSupplementedGoogleCloudStorage:

--properties spark.hadoop.fs.gs.metadata.cache.enable=false
或者,如果要创建新的Dataproc群集,请在群集属性中:

--properties core:fs.gs.metadata.cache.enable=false