Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群,也不应该删除HDFS?可能吗?_Google Cloud Platform_Hdfs_Nfs_Google Cloud Dataproc_Dataproc - Fatal编程技术网

Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群,也不应该删除HDFS?可能吗?

Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群,也不应该删除HDFS?可能吗?,google-cloud-platform,hdfs,nfs,google-cloud-dataproc,dataproc,Google Cloud Platform,Hdfs,Nfs,Google Cloud Dataproc,Dataproc,GCP dataproc-终止dataproc群集时,HDFS将自动删除。即使删除dataproc集群,如何使其持久化HDFS?它不应该删除HDFS?有可能吗?在GCP中创建dataproc群集时,它使用Hadoop分布式文件系统(HDFS)进行存储 根据您在终止dataproc群集时的声明,HDFS会自动删除,如果您使用的是VM磁盘,则会发生这种情况 HDFS数据和中间随机数据存储在VM引导磁盘上,如果没有提供本地SSD,则这些磁盘是永久磁盘 如果连接了本地SSD,HDF将保留在SSD中,并且

GCP dataproc-终止dataproc群集时,HDFS将自动删除。即使删除dataproc集群,如何使其持久化HDFS?它不应该删除HDFS?有可能吗?

在GCP中创建dataproc群集时,它使用Hadoop分布式文件系统(HDFS)进行存储

根据您在终止dataproc群集时的声明,HDFS会自动删除,如果您使用的是VM磁盘,则会发生这种情况

HDFS数据和中间随机数据存储在VM引导磁盘上,如果没有提供本地SSD,则这些磁盘是永久磁盘

如果连接了本地SSD,HDF将保留在SSD中,并且不会被删除。删除群集时,VM启动磁盘将被删除

您还可以查看此文档,以避免在dataproc中使用VM磁盘丢失HDF


可以使用谷歌云存储。默认情况下,此连接器安装在Dataproc中。当您关闭Hadoop集群时,与HDFS不同,您可以继续访问云存储中的数据

  • 从可用的文档来看,持久HDFS卷目前似乎不可用
  • 您可以查看Dataproc更新以检查有关此功能的更新
  • 从Google官方文档常见问题解答中找到了一个类似的问题场景,并提供了一个可能对您有所帮助的答案
  • 作为最佳实践,谷歌建议将GCP用作Dataproc的持久存储层。这将为您提供对存储在云存储中的文件的“直接数据访问”,并直接访问它们

您是否有特定的理由使用HDFS而不是GCS来承载您的数据?建议将GCS用于作业输入和输出,这样当您只需要托管数据时,就不必为计算付费。如果您确实需要HDFS,您可以创建一个集群来承载HDFS,并使用
core:fs.defaultFS=HDFS://
属性创建另一个集群来指向远程HDFS。我的意思是删除集群,这与终止集群相同,因此使用您的语句,如果删除集群,那么VM引导磁盘也将被删除,这与VM磁盘也被删除是一样的。它将如何持续下去。我不想仅仅为了使用HDFS而支付计算引擎的费用。我们如何将计算引擎与存储分离。i、 e使存储持久化。当您从spark(在dataproc中)向GCS写入数据时,如果您的数据倾斜,并且没有正确分区。你的工作会因为最后一项任务而被绞死,要花很长时间在GCS中写作。但当我尝试用HDFS编写相同的工作时,我没有发现这个问题。这份工作很有魅力。但唯一的缺点是HDFS是临时的,只要删除/终止集群,它就会被删除。