Google cloud dataproc 在Google dataproc中将文件直接写入Google存储时,在Google dataproc的pyspark作业中获得警告
spark job在写入google storage时创建的每个零件文件都会收到以下警告:Google cloud dataproc 在Google dataproc中将文件直接写入Google存储时,在Google dataproc的pyspark作业中获得警告,google-cloud-dataproc,Google Cloud Dataproc,spark job在写入google storage时创建的每个零件文件都会收到以下警告: 17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698 17/08/01 11:31:47 WARN com.goo
17/08/01 11:31:47 INFO com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Populating missing itemInfo on-demand for entry: gs://temp_bucket/output/part-09698
17/08/01 11:31:47 WARN com.google.cloud.hadoop.gcsio.CacheSupplementedGoogleCloudStorage: Possible stale CacheEntry; failed to fetch item info for: gs://temp_bucket/output/part-09698 - removing from cache
火花作业有10个阶段,此警告出现在9个阶段之后。由于spark作业正在创建约11500个零件文件。此警告适用于~11500个零件文件中的每个文件。由于这个警告,我的spark工作额外运行了15分钟,因为我运行了大约80个这样的工作。我浪费了很多时间,付出了很多代价
有没有办法抑制此警告?最近的更改使完全禁用强制列表一致性变得安全;预计未来的版本将逐步淘汰。在作业属性中尝试以下操作以禁用CacheSupplementedGoogleCloudStorage:
--properties spark.hadoop.fs.gs.metadata.cache.enable=false
或者,如果要创建新的Dataproc群集,请在群集属性中:
--properties core:fs.gs.metadata.cache.enable=false