Hadoop 从Spark运行Sqoop时出现连接异常
我目前正在尝试运行一个Sqoop导入作业,它是sparkjar的一部分 我正在使用Hadoop 从Spark运行Sqoop时出现连接异常,hadoop,apache-spark,sqoop,Hadoop,Apache Spark,Sqoop,我目前正在尝试运行一个Sqoop导入作业,它是sparkjar的一部分 我正在使用com.cloudera.sqoop.SqoopOptions和com.cloudera.sqoop.tool.importool运行sqoop作业 代码如下所示: import com.cloudera.sqoop.SqoopOptions import com.cloudera.sqoop.tool.ImportTool val options = new SqoopOptions val sqoopImpo
com.cloudera.sqoop.SqoopOptions
和com.cloudera.sqoop.tool.importool
运行sqoop作业
代码如下所示:
import com.cloudera.sqoop.SqoopOptions
import com.cloudera.sqoop.tool.ImportTool
val options = new SqoopOptions
val sqoopImport = new ImportTool
options.setConnectString("..")
options.setTargetDir("..")
//and a bunch of other Sqoop related options
//and finally
val ret = sqoopImport.run(options)
但他的车根本跑不动。作业在运行中保持数小时,并因连接异常而失败
连接异常失败:java.net.ConnectException:连接被拒绝;有关更多详细信息,请参阅:
编译器还发出警告,指出SqoopOptions
和ImportTool
已弃用
我可以从spark shell
我提交的申请带有--主纱线集群--部署模式集群
知道这里出了什么问题吗?我必须使用不同的API吗?datanodes和DB节点之间是否打开了连接?是否使用--jars
将jars广播到集群?@squid这是一个60节点的集群,所以我不太确定。是的,我提供所有的罐子。这看起来不像是缺少JAR的问题。sqoop作业在内部启动mapreduce/spark作业以执行操作(读/写),sqoop作业以分布式模式连接到数据库服务器以执行任何操作,因此应该在DataNode和DB服务器之间打开连接。在大多数情况下,集群中的所有数据节点都属于同一子网,若一个节点能够连接,那个么其余节点也可以连接。从spark/hive作业运行telnet命令,查看连接是否打开。datanodes和DB节点之间是否打开连接?是否使用--jars
将jars广播到集群?@squid这是一个60节点的集群,所以我不太确定。是的,我提供所有的罐子。这看起来不像是缺少JAR的问题。sqoop作业在内部启动mapreduce/spark作业以执行操作(读/写),sqoop作业以分布式模式连接到数据库服务器以执行任何操作,因此应该在DataNode和DB服务器之间打开连接。在大多数情况下,集群中的所有数据节点都属于同一子网,若一个节点能够连接,那个么其余节点也可以连接。从spark/hive作业运行telnet命令,查看连接是否打开。