如何配置关键的Hadoop_Hadoop_Hadoop Streaming_Greenplum_Hawq

如何配置关键的Hadoop

hadoop

如何配置关键的Hadoop,hadoop,hadoop-streaming,greenplum,hawq,Hadoop,Hadoop Streaming,Greenplum,Hawq,我们正在研制安装了HAWQ的绿梅。我想运行hadoop流媒体作业。但是，hadoop似乎没有配置或启动。如何启动mapred以确保可以使用hadoop流媒体？请尝试以下命令以获取字数： $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input <inputDir> \ -output <outputDir> \ -mapper /bin/cat \ -reducer /bin/wc 如

我们正在研制安装了HAWQ的绿梅。我想运行hadoop流媒体作业。但是，hadoop似乎没有配置或启动。如何启动mapred以确保可以使用hadoop流媒体？

请尝试以下命令以获取字数：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input <inputDir> \
-output <outputDir> \
-mapper /bin/cat \
-reducer /bin/wc

如果这提供了正确的字数，那么它将正常工作，否则请通过运行此命令检查抛出的错误。首先，确保集群已启动并且正在工作。要将其转到Pivotal Command Center，通常链接如下：https://:5443/并查看集群状态，或者要求管理员这样做

接下来，确保在您尝试开始工作的机器上安装了PHD客户端库。运行rpm-qa | grep博士

接下来，如果群集正在运行且已安装库，则可以如下方式运行流作业：

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout

/example.txt文件应该存在于HDFS上

我早就这么做了，Greenplum/Hadoop

-一,。安装 icm_客户端部署 ex.-icm_客户端部署配置单元

-二,。地位 HDFS 服务hadoop名称节点状态服务hadoop数据节点状态服务hadoop secondarynamenode状态映射服务hadoop作业跟踪器状态服务hadoop tasktracker状态蜂箱服务配置单元服务器状态服务配置单元元存储状态

-三,。用于启动/停止/重新启动服务配置单元服务器启动服务配置单元服务器停止服务配置单元服务器重新启动

注意：您可以在安装指南中找到所有这些命令和详细信息，可以在hadoop安装指南的某个地方在线获得

谢谢