Amazon web services 向emr提交本地spark作业

Amazon web services 向emr提交本地spark作业,amazon-web-services,apache-spark,hadoop,amazon-emr,Amazon Web Services,Apache Spark,Hadoop,Amazon Emr,我正在关注amazon文档向emr集群提交spark作业 按照说明进行操作后,使用frecuent疑难解答,由于未解析的地址而失败,消息类似于 错误spark.SparkContext:初始化SparkContext时出错。 java.lang.IllegalArgumentException:java.net.UnknownHostException: ip-172-32-1-231.us-east-2.compute.internal at org.apache.hadoop.securi

我正在关注amazon文档向emr集群提交spark作业

按照说明进行操作后,使用frecuent疑难解答,由于未解析的地址而失败,消息类似于

错误spark.SparkContext:初始化SparkContext时出错。 java.lang.IllegalArgumentException:java.net.UnknownHostException: ip-172-32-1-231.us-east-2.compute.internal at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:374) 在 org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:310) 在 org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:176)

当我看到它试图解析的IP是主节点1时,我在配置文件中将它用sed更改为公共的(从主节点的/etc/hadoop/conf目录中获得的)。但是错误是连接到数据节点

INFO hdfs.DFSClient:createBlockOutputStream中出现异常 org.apache.hadoop.net.ConnectTimeoutException:等待通道准备好进行连接时超时60000毫秒。ch:java.nio.channels.SocketChannel[连接挂起远程=/172.32.1.41:50010] 位于org.apache.hadoop.net.NetUtils.connect(NetUtils.java:533) 位于org.apache.hadoop.hdfs.DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1606) 在org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1404)上 位于org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357) 位于org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587) 19/02/08 13:54:58 INFO hdfs.DFSClient:放弃BP-1960505320-172.32.1.231-1549632479324:blk_1073741907_1086

最后,我尝试了与此问题相同的解决方案=

将以下内容添加到hdfs-site.xml文件中:

<property>
  <name>dfs.client.use.datanode.hostname</name>
  <value>true</value>
</property>   

有人能帮我在本地机器上设置spark,让spark提交到远程EMR吗?

除了跟踪链接问题的答案,你还应该将工作节点的(公共)IP和(私有)DNS添加到你的/etc/hosts文件中。

除了跟踪链接问题的答案之外,您还应该将工作节点的(公共)IP和(私有)DNS添加到您的/etc/hosts文件中

19/02/08 13:58:06 WARN hdfs.DFSClient: DataStreamer Exception
java.nio.channels.UnresolvedAddressException
    at sun.nio.ch.Net.checkAddress(Net.java:101)
    at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:622)
    at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:192)
    at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:530)
    at org.apache.hadoop.hdfs.DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1606)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1404)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587)