安装和配置多节点Hadoop群集_Hadoop_Installation_Cluster Computing

安装和配置多节点Hadoop群集

hadoop installation cluster-computing

安装和配置多节点Hadoop群集,hadoop,installation,cluster-computing,Hadoop,Installation,Cluster Computing,我是大数据系统的新手，完成了一些Coursera认证。我计划拥有自己的Hadoop集群，使用4台商品级PC。目前所有PC都运行Windows，但我可以在它们上安装Linux。我在互联网上搜索了很多关于安装过程的信息，但是没有找到（找到了很多可以在AWS上旋转的东西）。目前，我并不局限于任何平台，而是希望所有技术都是免费的\开源的。有了4台PC，我可以有1个主节点和3个数据节点。如果您能详细了解如何旋转这个裸机Hadoop集群，我们将不胜感激所以你想在4节点集群上安装hadoop安装程序要求：

我是大数据系统的新手，完成了一些Coursera认证。我计划拥有自己的Hadoop集群，使用4台商品级PC。目前所有PC都运行Windows，但我可以在它们上安装Linux。我在互联网上搜索了很多关于安装过程的信息，但是没有找到（找到了很多可以在AWS上旋转的东西）。目前，我并不局限于任何平台，而是希望所有技术都是免费的\开源的。有了4台PC，我可以有1个主节点和3个数据节点。如果您能详细了解如何旋转这个裸机Hadoop集群，我们将不胜感激

所以你想在4节点集群上安装hadoop安装程序

要求：1主3从（在多节点集群上安装hadoop安装程序）

第一步：摆脱windows。目前Hadoop可用于Linux机器。您可以使用ubuntu 14.04或更高版本（或CentOS、Redhat等）

步骤2：安装和安装Java $sudo apt获取安装python软件属性 $sudo添加apt存储库ppa:ferramroberto/java $sudo apt获取更新 $sudo apt get安装sun-java6-jdk

# Select Sun's Java as the default on your machine.
# See 'sudo update-alternatives --config java' for more information.    
#
$ sudo update-java-alternatives -s java-6-sun

步骤3：在.bashrc文件中设置路径（使用文本编辑器（vi/nano）打开此文件并附加以下文本）

步骤4：添加专用用户（虽然这不是必需的，但建议这样做）

步骤5：在所有节点上的/etc/文件夹中编辑主机文件，指定每个系统的IP地址，后跟它们的主机名。（在使用

vi/etc/hosts

中打开该文件，并附加以下文本。）--

有关SSH的更多信息，请访问：[

步骤7：在主服务器中下载并安装Hadoop

# mkdir /opt/hadoop 
# cd /opt/hadoop/ 
# wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-
  1.2.0.tar.gz 
# tar -xzf hadoop-1.2.0.tar.gz 
# mv hadoop-1.2.0 hadoop
# chown -R hadoop /opt/hadoop 
# cd /opt/hadoop/hadoop/

安装到此结束

下一步是：配置Hadoop

步骤1：打开core-site.xml并按如下方式进行编辑：

<configuration>
<property> 
  <name>fs.default.name</name> 
  <value>hdfs://hadoop-master:9000/</value> 
</property> 
<property> 
  <name>dfs.permissions</name> 
  <value>false</value> 
</property> 
</configuration>

<configuration>
<property> 
  <name>dfs.data.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name/data</value> 
  <final>true</final> 
</property> 

<property> 
  <name>dfs.name.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name</value> 
  <final>true</final> 
</property> 
 <property> 
  <name>dfs.name.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name</value> 
  <final>true</final> 
</property> 

<property> 
  <name>dfs.replication</name> 
  <value>3</value> 
</property> 
</configuration>

步骤5：配置主机--

步骤5：也将其安装在从属节点上--

步骤6：配置从属设备--

步骤7：格式化节点（仅一次，否则所有数据将永久丢失）

你们都准备好了

您可以按如下方式启动服务--

很棒的PyCodoop。谢谢你的详细回答。我将从这里开始。你为什么要使用Hadoop 1.2，它已经有好几年的历史了？另外，你使用Java 6，然后将Java设置为Java 7。这两个都是EOL…你需要更新你的笔记感谢你的关注。在基于linux的系统上升级/更新任何东西都没什么大不了的。我关注的是insta安装/配置部分。如果您想轻松安装，可以使用Apache Ambari（来自Hortonworks或MapR）或使用Cloudera Manager X Cricket_007。在多节点群集上安装Cloudera是否免费供个人使用？Cloudera Express是免费版本。

$ su hadoop
$ ssh-keygen -t rsa 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop-master 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp1@hadoop-slave-1 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp2@hadoop-slave-2
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp3@hadoop-slave-3
$ chmod 0600 ~/.ssh/authorized_keys 
$ exit

# mkdir /opt/hadoop 
# cd /opt/hadoop/ 
# wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-
  1.2.0.tar.gz 
# tar -xzf hadoop-1.2.0.tar.gz 
# mv hadoop-1.2.0 hadoop
# chown -R hadoop /opt/hadoop 
# cd /opt/hadoop/hadoop/

<configuration>
<property> 
  <name>fs.default.name</name> 
  <value>hdfs://hadoop-master:9000/</value> 
</property> 
<property> 
  <name>dfs.permissions</name> 
  <value>false</value> 
</property> 
</configuration>

<configuration>
<property> 
  <name>dfs.data.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name/data</value> 
  <final>true</final> 
</property> 

<property> 
  <name>dfs.name.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name</value> 
  <final>true</final> 
</property> 
 <property> 
  <name>dfs.name.dir</name> 
  <value>/opt/hadoop/hadoop/dfs/name</value> 
  <final>true</final> 
</property> 

<property> 
  <name>dfs.replication</name> 
  <value>3</value> 
</property> 
</configuration>

<configuration>
<property> 
  <name>mapred.job.tracker</name> 
  <value>hadoop-master:9001</value> 
</property> 
</configuration>

export JAVA_HOME=/opt/jdk1.7.0_17 export 
HADOOP_OPTS=Djava.net.preferIPv4Stack=true export 
HADOOP_CONF_DIR=/opt/hadoop/hadoop/conf

$ vi etc/hadoop/masters 
hadoop-master

# su hadoop 
$ cd /opt/hadoop 
$ scp -r hadoop hadoop-slave-1:/opt/hadoop 
$ scp -r hadoop hadoop-slave-2:/opt/hadoop
$ scp -r hadoop hadoop-slave-3:/opt/hadoop

$ vi etc/hadoop/slaves
hadoop-slave-1 
hadoop-slave-2
hadoop-slave-3

# su hadoop 
$ cd /opt/hadoop/hadoop 
$ bin/hadoop namenode –format

$ cd $HADOOP_HOME/sbin
$ start-all.sh