hadoop 2.2.0中的数据备份和恢复

hadoop 2.2.0中的数据备份和恢复,hadoop,hadoop2,Hadoop,Hadoop2,我是Hadoop新手,对Hadoop管理非常感兴趣,所以我尝试在Ubuntu12.04中以伪分布式模式安装Hadoop 2.2.0,并成功安装并运行了一些示例jar文件,现在我正在尝试进一步学习,尝试学习数据备份和恢复部分,有人能告诉我们如何在hadoop 2.2.0中备份和恢复数据吗?还有人能推荐一些关于hadoop管理的好书和学习hadoop管理的步骤吗 提前感谢。Hadoop中没有经典的备份和恢复功能。这有几个原因: HDFS使用块级复制通过冗余实现数据保护。 HDFS在规模上可以大规模

我是Hadoop新手,对Hadoop管理非常感兴趣,所以我尝试在Ubuntu12.04中以伪分布式模式安装Hadoop 2.2.0,并成功安装并运行了一些示例jar文件,现在我正在尝试进一步学习,尝试学习数据备份和恢复部分,有人能告诉我们如何在hadoop 2.2.0中备份和恢复数据吗?还有人能推荐一些关于hadoop管理的好书和学习hadoop管理的步骤吗


提前感谢。

Hadoop中没有经典的备份和恢复功能。这有几个原因:

  • HDFS使用块级复制通过冗余实现数据保护。
  • HDFS在规模上可以大规模扩展,备份到磁盘而不是磁带变得更加经济。
  • “大数据”的规模不便于备份。
Hadoop使用数据复制而不是备份。在内部,它为每个数据块创建多个副本(默认情况下,3个副本)。它还有一个名为“distcp”的函数,允许您在集群之间复制数据副本。这是大多数Hadoop操作员通常对“备份”所做的操作

一些公司,如Cloudera,正在将distcp工具合并到为其Hadoop发行版创建“备份”或“复制”服务中。它针对HDFS中的特定目录进行操作,并将其复制到另一个集群

如果你真的想为Hadoop创建一个备份服务,你可以自己手动创建一个。您需要某种访问数据的机制(NFS网关、webFS等),然后可以使用磁带库、VTL等创建备份。

O'Reilly的《Hadoop操作》是一本好书,但对于其他内容,您能否具体说明您遇到了什么问题以及迄今为止尝试了哪些步骤?您的问题as太开放了,并且不是关于堆栈溢出的主题(它关注的是开发而不是管理)。