如何配置关键的Hadoop

如何配置关键的Hadoop,hadoop,hadoop-streaming,greenplum,hawq,Hadoop,Hadoop Streaming,Greenplum,Hawq,我们正在研制安装了HAWQ的绿梅。我想运行hadoop流媒体作业。但是,hadoop似乎没有配置或启动。如何启动mapred以确保可以使用hadoop流媒体?请尝试以下命令以获取字数: $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input <inputDir> \ -output <outputDir> \ -mapper /bin/cat \ -reducer /bin/wc 如

我们正在研制安装了HAWQ的绿梅。我想运行hadoop流媒体作业。但是,hadoop似乎没有配置或启动。如何启动mapred以确保可以使用hadoop流媒体?

请尝试以下命令以获取字数:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input <inputDir> \
-output <outputDir> \
-mapper /bin/cat \
-reducer /bin/wc

如果这提供了正确的字数,那么它将正常工作,否则请通过运行此命令检查抛出的错误。首先,确保集群已启动并且正在工作。要将其转到Pivotal Command Center,通常链接如下:https://:5443/并查看集群状态,或者要求管理员这样做

接下来,确保在您尝试开始工作的机器上安装了PHD客户端库。运行rpm-qa | grep博士

接下来,如果群集正在运行且已安装库,则可以如下方式运行流作业:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout

/example.txt文件应该存在于HDFS上

我早就这么做了,Greenplum/Hadoop

-一,。安装 icm_客户端部署 ex.-icm_客户端部署配置单元

-二,。地位 HDFS 服务hadoop名称节点状态 服务hadoop数据节点状态 服务hadoop secondarynamenode状态 映射 服务hadoop作业跟踪器状态 服务hadoop tasktracker状态 蜂箱 服务配置单元服务器状态 服务配置单元元存储状态

-三,。用于启动/停止/重新启动 服务配置单元服务器启动 服务配置单元服务器停止 服务配置单元服务器重新启动

注意:您可以在安装指南中找到所有这些命令和详细信息,可以在hadoop安装指南的某个地方在线获得

谢谢