Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群，也不应该删除HDFS？可能吗？_Google Cloud Platform_Hdfs_Nfs_Google Cloud Dataproc_Dataproc

Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群，也不应该删除HDFS？可能吗？

google-cloud-platform

Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群，也不应该删除HDFS？可能吗？,google-cloud-platform,hdfs,nfs,google-cloud-dataproc,dataproc,Google Cloud Platform,Hdfs,Nfs,Google Cloud Dataproc,Dataproc,GCP dataproc-终止dataproc群集时，HDFS将自动删除。即使删除dataproc集群，如何使其持久化HDFS？它不应该删除HDFS？有可能吗？在GCP中创建dataproc群集时，它使用Hadoop分布式文件系统（HDFS）进行存储根据您在终止dataproc群集时的声明，HDFS会自动删除，如果您使用的是VM磁盘，则会发生这种情况 HDFS数据和中间随机数据存储在VM引导磁盘上，如果没有提供本地SSD，则这些磁盘是永久磁盘如果连接了本地SSD，HDF将保留在SSD中，并且

GCP dataproc-终止dataproc群集时，HDFS将自动删除。即使删除dataproc集群，如何使其持久化HDFS？它不应该删除HDFS？有可能吗？

在GCP中创建dataproc群集时，它使用Hadoop分布式文件系统（HDFS）进行存储

根据您在终止dataproc群集时的声明，HDFS会自动删除，如果您使用的是VM磁盘，则会发生这种情况

HDFS数据和中间随机数据存储在VM引导磁盘上，如果没有提供本地SSD，则这些磁盘是永久磁盘

如果连接了本地SSD，HDF将保留在SSD中，并且不会被删除。删除群集时，VM启动磁盘将被删除

您还可以查看此文档，以避免在dataproc中使用VM磁盘丢失HDF

可以使用谷歌云存储。默认情况下，此连接器安装在Dataproc中。当您关闭Hadoop集群时，与HDFS不同，您可以继续访问云存储中的数据

从可用的文档来看，持久HDFS卷目前似乎不可用
您可以查看Dataproc更新以检查有关此功能的更新
从Google官方文档常见问题解答中找到了一个类似的问题场景，并提供了一个可能对您有所帮助的答案
作为最佳实践，谷歌建议将GCP用作Dataproc的持久存储层。这将为您提供对存储在云存储中的文件的“直接数据访问”，并直接访问它们

您是否有特定的理由使用HDFS而不是GCS来承载您的数据？建议将GCS用于作业输入和输出，这样当您只需要托管数据时，就不必为计算付费。如果您确实需要HDFS，您可以创建一个集群来承载HDFS，并使用

core:fs.defaultFS=HDFS://

属性创建另一个集群来指向远程HDFS。我的意思是删除集群，这与终止集群相同，因此使用您的语句，如果删除集群，那么VM引导磁盘也将被删除，这与VM磁盘也被删除是一样的。它将如何持续下去。我不想仅仅为了使用HDFS而支付计算引擎的费用。我们如何将计算引擎与存储分离。i、 e使存储持久化。当您从spark（在dataproc中）向GCS写入数据时，如果您的数据倾斜，并且没有正确分区。你的工作会因为最后一项任务而被绞死，要花很长时间在GCS中写作。但当我尝试用HDFS编写相同的工作时，我没有发现这个问题。这份工作很有魅力。但唯一的缺点是HDFS是临时的，只要删除/终止集群，它就会被删除。