如何将Sqoop连接到多个hadoop集群_Hadoop_Sqoop

如何将Sqoop连接到多个hadoop集群

hadoop

如何将Sqoop连接到多个hadoop集群,hadoop,sqoop,Hadoop,Sqoop,是否需要将Sqoop连接到不同的Hadoop集群，以便创建多个Sqoop作业以将数据导出到多个Hadoop集群将数据导出到多个hadoop集群如果数据进入Hadoop，从技术上讲，这是一个Sqoop导入不清楚当前如何从一台机器上管理不同的集群，但需要有所有环境的conf文件夹可供Sqoop读取 sqoop命令行程序是一个包装器，它运行hadoop附带的bin/hadoop脚本。如果您的计算机上存在多个Hadoop安装，则可以通过设置$Hadoop\u HOME环境变量来选择Hadoop安装

是否需要将Sqoop连接到不同的Hadoop集群，以便创建多个Sqoop作业以将数据导出到多个Hadoop集群

将数据导出到多个hadoop集群

如果数据进入Hadoop，从技术上讲，这是一个Sqoop导入

不清楚当前如何从一台机器上管理不同的集群，但需要有所有环境的conf文件夹可供Sqoop读取

sqoop命令行程序是一个包装器，它运行hadoop附带的

bin/hadoop

脚本。如果您的计算机上存在多个Hadoop安装，则可以通过设置

$Hadoop\u HOME

环境变量来选择Hadoop安装

例如：

   $ HADOOP_HOME=/path/to/some/hadoop sqoop import --arguments...

或：

如果未设置

$HADOOP\u HOME

，Sqoop将使用Cloudera HADOOP发行版的默认安装位置

/usr/lib/HADOOP

激活的Hadoop配置从

$Hadoop\u HOME/conf/

加载，除非设置了

$Hadoop\u conf\u DIR

环境变量

根据您设置Hadoop的方式，Hortonworks只有SQOOP1，而Cloudera（可能还有MapR）有Sqoop2，这些指令可能不同，因为Sqoop2体系结构不同

将数据导出到多个hadoop集群

如果数据进入Hadoop，从技术上讲，这是一个Sqoop导入

不清楚当前如何从一台机器上管理不同的集群，但需要有所有环境的conf文件夹可供Sqoop读取

sqoop命令行程序是一个包装器，它运行hadoop附带的

bin/hadoop

脚本。如果您的计算机上存在多个Hadoop安装，则可以通过设置

$Hadoop\u HOME

环境变量来选择Hadoop安装

例如：

   $ HADOOP_HOME=/path/to/some/hadoop sqoop import --arguments...

或：

如果未设置

$HADOOP\u HOME

，Sqoop将使用Cloudera HADOOP发行版的默认安装位置

/usr/lib/HADOOP

激活的Hadoop配置从

$Hadoop\u HOME/conf/

加载，除非设置了

$Hadoop\u conf\u DIR

环境变量

根据您设置Hadoop的方式，Hortonworks只有Sqoop 1，而Cloudera（可能还有MapR）有Sqoop2，这些指令可能不同，因为Sqoop2架构不同。

我认为Sqoop2可以做到这一点，但是Sqoop1与您的hdfs配置有很大关系files@cricket_007你能给我指一些关于Sqoop2是如何做到的文档吗？sqoop.apache.org有你需要的所有信息，我可能会建议使用Nifi。它可以查询数据库并放入hdfs。或SparkSQL，这取决于您的需要。我们将NiFi作为部署的一部分，用于传递其他数据源。但对于Sqoop来说，由于它利用了Hadoop提供的并行性，也是我们传统的一部分，所以在RDBMS和Hadoop之间移动海量数据时，我们希望坚持使用它。我认为Sqoop2可以做到这一点，但是Sqoop1与您的hdfs配置有很大关系files@cricket_007你能给我指一些关于Sqoop2是如何做到的文档吗？sqoop.apache.org有你需要的所有信息，我可能会建议使用Nifi。它可以查询数据库并放入hdfs。或SparkSQL，这取决于您的需要。我们将NiFi作为部署的一部分，用于传递其他数据源。但是对于Sqoop，由于它利用了Hadoop提供的并行性，这也是我们传统的一部分，所以在RDBMS和Hadoop之间移动批量数据时，我们希望坚持使用它。