Hadoop Docker/虚拟化和HDFS_Hadoop_Docker_Hdfs

Hadoop Docker/虚拟化和HDFS

hadoop docker

Hadoop Docker/虚拟化和HDFS,hadoop,docker,hdfs,Hadoop,Docker,Hdfs,我目前正在从事的项目使用一个小型Hadoop集群来迭代大约300gb的数据。对这些数据进行分析，并填充mongoDb，我们的系统稍后将使用该mongoDb 现在Hadoop群集正在4台物理机器（旧的Dell Precision t3500）上运行。对于测试来说，这是一个很棒的设置，因为我可以轻松地与机器交互、安装和测试。但显然，当程序发布时，这是不太理想的。对于这一步，最理想的结果是虚拟化Hadoop。将其分布在一组Docker容器上，这些容器可以在集群中运行在互联网上搜索时，很快就发现Had

我目前正在从事的项目使用一个小型Hadoop集群来迭代大约300gb的数据。对这些数据进行分析，并填充mongoDb，我们的系统稍后将使用该mongoDb

现在Hadoop群集正在4台物理机器（旧的Dell Precision t3500）上运行。对于测试来说，这是一个很棒的设置，因为我可以轻松地与机器交互、安装和测试。但显然，当程序发布时，这是不太理想的。对于这一步，最理想的结果是虚拟化Hadoop。将其分布在一组Docker容器上，这些容器可以在集群中运行

在互联网上搜索时，很快就发现Hadoop可以在这样的环境中运行。大多数搜索结果都涉及到纱线和实际的hadoop实例，以及如何启动它们。这很好，但我想知道：HDFS会发生什么

在我当前的测试设置中，HDFS包含300gb的数据，以三元组存储（以防止数据丢失）。当系统上线时，该数据集将以每天大约250mb的速度增长。将所有这些文件上载到HDFS需要…一段时间

现在来回答我的问题：

当docker启动或停止某些容器时，HDFS将如何工作。它还能保证不会丢失任何数据吗。重新同步一个新节点不需要很多时间吗？而且很有可能我从错误的角度看待这个问题。我以前从未这样做过，所以如果我走错了路，请告诉我

ps：如果这是一个有点长/模糊的问题，我很抱歉。但就像我说的，这对我来说是一个未知的领域，所以我正在寻找一些能为我指明正确方向的东西，谷歌只让我走了这么远，但它的信息仅限于纱线和Hadoop本身