从pyspark访问文件时无法连接到hadoop群集_Hadoop_Pyspark

从pyspark访问文件时无法连接到hadoop群集

hadoop pyspark

从pyspark访问文件时无法连接到hadoop群集,hadoop,pyspark,Hadoop,Pyspark,我正在运行以下代码： conf = SparkConf().setAppName("basicRegressionUbuntu").setMaster("spark://MyCUSTOMIP:7077") sc = SparkContext(conf=conf) rdd = sc.textFile("hdfs://MYHADOOPMASTERNODE:8020/sampleData/Sacramentorealestatetransactions.csv") 它抛出以下内容： 16/03/2

我正在运行以下代码：

conf = SparkConf().setAppName("basicRegressionUbuntu").setMaster("spark://MyCUSTOMIP:7077")
sc = SparkContext(conf=conf)

rdd = sc.textFile("hdfs://MYHADOOPMASTERNODE:8020/sampleData/Sacramentorealestatetransactions.csv")

它抛出以下内容：

16/03/25 10:01:11 WARN security.UserGroupInformation: PriviledgedActionException as:hduser (auth:SIMPLE) cause:java.io.IOException: Failed to connect to /10.0.2.15:42939
Exception in thread "main" java.io.IOException: Failed to connect to /10.0.2.15:42939
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:216)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:167)
    at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:200)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:183)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.net.ConnectException: Connection timed out: /10.0.2.15:42939
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739)
    at io.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:224)
    at io.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:289)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:528)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    ... 1 more

我知道文件路径是存在的，因为当我SSH到MYHADOOPMASTERNODE并执行

hdfs-dfs-ls/sampleData/

时，它会显示填充

任何帮助都将不胜感激

如果集群正在运行纱线，请将setmaster更改为“纱线”，然后重试。不确定为什么在基于纱线的集群上使用spark://for master作为spark master将是spark从纱线\u CONF\u DIR获取的纱线资源管理器。@urug:你的意思是“.setMaster（”yarn://MyCUSTOMIP:7077）？那不行，它无法解析主URL？.setMaster（“纱线”）如果我正在向远程集群提交一个作业——我只安装了spark——那么它将不知道主节点的地址。这个ip地址是什么10.0.2.15？或者换句话说，驱动程序从哪里开始？在我看来，这是一个实例化/连接spark驱动程序的问题，而不是与HDFS相关的问题