Hadoop Docker/虚拟化和HDFS

Hadoop Docker/虚拟化和HDFS,hadoop,docker,hdfs,Hadoop,Docker,Hdfs,我目前正在从事的项目使用一个小型Hadoop集群来迭代大约300gb的数据。对这些数据进行分析,并填充mongoDb,我们的系统稍后将使用该mongoDb 现在Hadoop群集正在4台物理机器(旧的Dell Precision t3500)上运行。对于测试来说,这是一个很棒的设置,因为我可以轻松地与机器交互、安装和测试。但显然,当程序发布时,这是不太理想的。对于这一步,最理想的结果是虚拟化Hadoop。将其分布在一组Docker容器上,这些容器可以在集群中运行 在互联网上搜索时,很快就发现Had

我目前正在从事的项目使用一个小型Hadoop集群来迭代大约300gb的数据。对这些数据进行分析,并填充mongoDb,我们的系统稍后将使用该mongoDb

现在Hadoop群集正在4台物理机器(旧的Dell Precision t3500)上运行。对于测试来说,这是一个很棒的设置,因为我可以轻松地与机器交互、安装和测试。但显然,当程序发布时,这是不太理想的。对于这一步,最理想的结果是虚拟化Hadoop。将其分布在一组Docker容器上,这些容器可以在集群中运行

在互联网上搜索时,很快就发现Hadoop可以在这样的环境中运行。大多数搜索结果都涉及到纱线和实际的hadoop实例,以及如何启动它们。这很好,但我想知道:HDFS会发生什么

在我当前的测试设置中,HDFS包含300gb的数据,以三元组存储(以防止数据丢失)。当系统上线时,该数据集将以每天大约250mb的速度增长。将所有这些文件上载到HDFS需要…一段时间

现在来回答我的问题:

当docker启动或停止某些容器时,HDFS将如何工作。它还能保证不会丢失任何数据吗。重新同步一个新节点不需要很多时间吗?而且很有可能我从错误的角度看待这个问题。我以前从未这样做过,所以如果我走错了路,请告诉我

ps:如果这是一个有点长/模糊的问题,我很抱歉。但就像我说的,这对我来说是一个未知的领域,所以我正在寻找一些能为我指明正确方向的东西,谷歌只让我走了这么远,但它的信息仅限于纱线和Hadoop本身