Google cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群,也不应该删除HDFS?可能吗?
GCP dataproc-终止dataproc群集时,HDFS将自动删除。即使删除dataproc集群,如何使其持久化HDFS?它不应该删除HDFS?有可能吗?在GCP中创建dataproc群集时,它使用Hadoop分布式文件系统(HDFS)进行存储 根据您在终止dataproc群集时的声明,HDFS会自动删除,如果您使用的是VM磁盘,则会发生这种情况 HDFS数据和中间随机数据存储在VM引导磁盘上,如果没有提供本地SSD,则这些磁盘是永久磁盘 如果连接了本地SSD,HDF将保留在SSD中,并且不会被删除。删除群集时,VM启动磁盘将被删除 您还可以查看此文档,以避免在dataproc中使用VM磁盘丢失HDFGoogle cloud platform GCP | Dataproc |如何创建持久的HDFS卷意味着即使删除Dataproc集群,也不应该删除HDFS?可能吗?,google-cloud-platform,hdfs,nfs,google-cloud-dataproc,dataproc,Google Cloud Platform,Hdfs,Nfs,Google Cloud Dataproc,Dataproc,GCP dataproc-终止dataproc群集时,HDFS将自动删除。即使删除dataproc集群,如何使其持久化HDFS?它不应该删除HDFS?有可能吗?在GCP中创建dataproc群集时,它使用Hadoop分布式文件系统(HDFS)进行存储 根据您在终止dataproc群集时的声明,HDFS会自动删除,如果您使用的是VM磁盘,则会发生这种情况 HDFS数据和中间随机数据存储在VM引导磁盘上,如果没有提供本地SSD,则这些磁盘是永久磁盘 如果连接了本地SSD,HDF将保留在SSD中,并且
可以使用谷歌云存储。默认情况下,此连接器安装在Dataproc中。当您关闭Hadoop集群时,与HDFS不同,您可以继续访问云存储中的数据
- 从可用的文档来看,持久HDFS卷目前似乎不可用
- 您可以查看Dataproc更新以检查有关此功能的更新
- 从Google官方文档常见问题解答中找到了一个类似的问题场景,并提供了一个可能对您有所帮助的答案
- 作为最佳实践,谷歌建议将GCP用作Dataproc的持久存储层。这将为您提供对存储在云存储中的文件的“直接数据访问”,并直接访问它们
core:fs.defaultFS=HDFS://
属性创建另一个集群来指向远程HDFS。我的意思是删除集群,这与终止集群相同,因此使用您的语句,如果删除集群,那么VM引导磁盘也将被删除,这与VM磁盘也被删除是一样的。它将如何持续下去。我不想仅仅为了使用HDFS而支付计算引擎的费用。我们如何将计算引擎与存储分离。i、 e使存储持久化。当您从spark(在dataproc中)向GCS写入数据时,如果您的数据倾斜,并且没有正确分区。你的工作会因为最后一项任务而被绞死,要花很长时间在GCS中写作。但当我尝试用HDFS编写相同的工作时,我没有发现这个问题。这份工作很有魅力。但唯一的缺点是HDFS是临时的,只要删除/终止集群,它就会被删除。