hadoop 2.2.0中的数据备份和恢复_Hadoop_Hadoop2

hadoop 2.2.0中的数据备份和恢复

hadoop

hadoop 2.2.0中的数据备份和恢复,hadoop,hadoop2,Hadoop,Hadoop2,我是Hadoop新手，对Hadoop管理非常感兴趣，所以我尝试在Ubuntu12.04中以伪分布式模式安装Hadoop 2.2.0，并成功安装并运行了一些示例jar文件，现在我正在尝试进一步学习，尝试学习数据备份和恢复部分，有人能告诉我们如何在hadoop 2.2.0中备份和恢复数据吗？还有人能推荐一些关于hadoop管理的好书和学习hadoop管理的步骤吗提前感谢。Hadoop中没有经典的备份和恢复功能。这有几个原因： HDFS使用块级复制通过冗余实现数据保护。 HDFS在规模上可以大规模

我是Hadoop新手，对Hadoop管理非常感兴趣，所以我尝试在Ubuntu12.04中以伪分布式模式安装Hadoop 2.2.0，并成功安装并运行了一些示例jar文件，现在我正在尝试进一步学习，尝试学习数据备份和恢复部分，有人能告诉我们如何在hadoop 2.2.0中备份和恢复数据吗？还有人能推荐一些关于hadoop管理的好书和学习hadoop管理的步骤吗

提前感谢。

Hadoop中没有经典的备份和恢复功能。这有几个原因：

HDFS使用块级复制通过冗余实现数据保护。
HDFS在规模上可以大规模扩展，备份到磁盘而不是磁带变得更加经济。
“大数据”的规模不便于备份。

Hadoop使用数据复制而不是备份。在内部，它为每个数据块创建多个副本（默认情况下，3个副本）。它还有一个名为“distcp”的函数，允许您在集群之间复制数据副本。这是大多数Hadoop操作员通常对“备份”所做的操作

一些公司，如Cloudera，正在将distcp工具合并到为其Hadoop发行版创建“备份”或“复制”服务中。它针对HDFS中的特定目录进行操作，并将其复制到另一个集群

如果你真的想为Hadoop创建一个备份服务，你可以自己手动创建一个。您需要某种访问数据的机制（NFS网关、webFS等），然后可以使用磁带库、VTL等创建备份。

O'Reilly的《Hadoop操作》是一本好书，但对于其他内容，您能否具体说明您遇到了什么问题以及迄今为止尝试了哪些步骤？您的问题as太开放了，并且不是关于堆栈溢出的主题（它关注的是开发而不是管理）。