Hadoop 简单的基于Java的Spark程序不需要'；我没做完_Hadoop_Apache Spark_Yarn_Hadoop2

Hadoop 简单的基于Java的Spark程序不需要'；我没做完

hadoop apache-spark

Hadoop 简单的基于Java的Spark程序不需要'；我没做完,hadoop,apache-spark,yarn,hadoop2,Hadoop,Apache Spark,Yarn,Hadoop2,我创建了一个非常简单的基于Java的“字数计算”Spark程序，我正在一个运行在Thread上的集群中运行它，详细信息如下： Hadoop详细信息：主节点（NN、SNN、RM）-192.168.0.100 从节点（DN，NM）-192.168.0.105192.168.0.108 Spark详细信息：主机正在运行：192.168.0.100 正在运行的工人：192.168.0.105、192.168.0.108 我已经创建了一台客户机，从中提交Spark作业（客户机的IP地址为-->192.

我创建了一个非常简单的基于Java的“字数计算”Spark程序，我正在一个运行在Thread上的集群中运行它，详细信息如下：

Hadoop详细信息：主节点（NN、SNN、RM）-192.168.0.100
从节点（DN，NM）-192.168.0.105192.168.0.108

Spark详细信息：主机正在运行：192.168.0.100
正在运行的工人：192.168.0.105、192.168.0.108

我已经创建了一台客户机，从中提交Spark作业（客户机的IP地址为-->192.168.0.240）

我使用以下命令将作业提交给Spark：然而，程序根本不会终止，数据集非常小（10行文本），我希望它可以在不花费太多时间的情况下完成

以下是我在提交作业后在控制台上看到的输出：

17/03/26 19:54:42 INFO yarn.Client: Application report for application_1490572543329_0001 (state: ACCEPTED)
17/03/26 19:54:43 INFO yarn.Client: Application report for application_1490572543329_0001 (state: ACCEPTED)
17/03/26 19:54:44 INFO yarn.Client: Application report for application_1490572543329_0001 (state: ACCEPTED)
17/03/26 19:54:45 INFO yarn.Client: Application report for application_1490572543329_0001 (state: ACCEPTED)
17/03/26 19:54:46 INFO yarn.Client: Application report for application_1490572543329_0001 (state: ACCEPTED)

这将永远持续下去。我不知道为什么这项工作没有完成

这是我在此应用程序的GUI中看到的：

以下是：纱线原木-applicationId application_1490572543329_0002的输出日志聚合尚未完成或未启用

这是我的第一个Spark程序，我将其配置为在纱线集群上运行

我使用在Virtualbox上运行的4个虚拟机、分操作系统来模拟分布式环境

有人能帮我解释一下为什么这个程序不能正常运行吗

更新：我在AWS中设置了环境，有两个启动的实例具有良好的配置（8个Vcpu和32 GB RAM），但这项工作尚未完成

（A） web-site.xml

这与作业未完成有关吗？

如果“已接受”状态在任何时候都继续，而没有任何“失败”状态，则表示群集资源分配允许提交作业，但当前没有可用资源来启动容器中的作业。状态机看起来类似于

错误消息中的
纱线应用状态：已接受，正在等待AM容器
分配
纱线无法为Spark应用程序分配容器，因为没有可用的活动节点管理器
节点管理员使用属性warn.resourcemanager.resource tracker.address
与resourcemanager通信。
默认情况下，此属性的值设置为
<property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>${yarn.resourcemanager.hostname}:8031</value>
</property> 

此外，属性warn.nodemanager.auxservices
必须是warn.nodemanager.aux services

更改后重新启动服务。
纱线日志-applicationId application_1490572543329_0001

显示什么？你在8888看到了什么？JacekLaskowski：我已经添加了我在Thread UI中看到的屏幕截图。@JacekLaskowski：我已经添加了日志细节。@franklinsijo：我也添加了日志细节，但仍然无法完成。你能添加你的

Thread site.xml

！这与我的笔记本电脑的配置有关吗？我在4个不同的虚拟机中运行所有这些节点，托管在Virtualbox中。它有2个核心，4个虚拟CPU。当前VM配置和spark（执行器和驱动程序）配置是什么？如何检查？我是这样提交作业的：spark submit--class com.example.WordCountTask--master warn/root/SparkCodeInJava/word count/target/word-count-1.0-SNAPSHOT.jar/spark/input/inputext.txt/spark/outputspark-defaults.conf文件检查您的spark/confI下没有这样的文件，有一个名为->spark-defaults.conf.template的文件。非常感谢您在聊天中提供的详细信息和指导，它确实帮助解决了这个问题。非常感谢！

17/03/26 20:24:09 WARN util.NativeCodeLoader: Unable to load native-hadoop libra
/tmp/logs/root/logs/application_1490572543329_0002 does not exist.

    <property>
            <name>yarn.nodemanager.auxservices</name>
            <value>mapreduce_shuffle</value>
    </property>

    <property>
            <name>yarn.resourcemanager.address</name>
            <value>ip-XXX-YYYY-ZZZ-AAA.us-west-2.compute.internal:8032</value>
    </property>

17/03/29 15:51:35 INFO yarn.Client: Requesting a new application from cluster with **0 NodeManagers**

17/03/29 15:51:35 INFO yarn.Client: Requesting a new application from cluster with **0 NodeManagers**

<property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>${yarn.resourcemanager.hostname}:8031</value>
</property>

 <property>
   <name>yarn.resourcemanager.hostname</name>
   <value>rm_hostname</value> <!-- Hostname of the node where Resource Manager is started -->
</property>