Hadoop 使用sqoop将数据从Oracle(Windows)导入HDFS(CDH3)计算机
嗨,我正在接受HADOOP的培训。我有一个任务,在这个任务中,我必须使用sqoop将一个表数据从oraclewindows 11gXe导入到hdfs。我正在读下面的文章。我的问题是如何准确地将数据从windows导入hdfs。我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfscdh3机器上的MySql导入了数据。但我不知道如何将windows中的Oracle数据导入hdfs。请帮忙Hadoop 使用sqoop将数据从Oracle(Windows)导入HDFS(CDH3)计算机,hadoop,oracle11g,sqoop,bigdata,Hadoop,Oracle11g,Sqoop,Bigdata,嗨,我正在接受HADOOP的培训。我有一个任务,在这个任务中,我必须使用sqoop将一个表数据从oraclewindows 11gXe导入到hdfs。我正在读下面的文章。我的问题是如何准确地将数据从windows导入hdfs。我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfscdh3机器上的MySql导入了数据。但我不知道如何将windows中的Oracle数据导入hdfs。请帮忙 您不需要将数据从oracle导入本地计算机。然后将其复制到HDFS机器。然后将其导
您不需要将数据从oracle导入本地计算机。然后将其复制到HDFS机器。然后将其导入HDFS Sqoop在这里导入HDFS目录中的RDBMS表 使用命令: sqoop导入-connect'jdbc:oracle:thin:@192.xx.xx.xx:1521:ORCL'-username testuser-password testpassword-table testtable-target dir/tmp/testdata 转到运行sqoop的机器。去终端,我相信是linux。只需启动上面提到的命令,并在hdfs中的示例命令中选中-targetdir/tmp/testdata。您将在那里找到与oracle表对应的文件
有关更多详细信息,请查看sqoop 您不需要将数据从oracle导入本地计算机。然后将其复制到HDFS机器。然后将其导入HDFS Sqoop在这里导入HDFS目录中的RDBMS表 使用命令: sqoop导入-connect'jdbc:oracle:thin:@192.xx.xx.xx:1521:ORCL'-username testuser-password testpassword-table testtable-target dir/tmp/testdata 转到运行sqoop的机器。去终端,我相信是linux。只需启动上面提到的命令,并在hdfs中的示例命令中选中-targetdir/tmp/testdata。您将在那里找到与oracle表对应的文件
有关更多详细信息,请查看sqoop 以下是逐步过程: 1.使用您的凭据连接oracle sql命令行登录: e、 g用户名:系统密码:系统 确保此用户具有所有管理权限,或在oracle中以sysdba身份连接。创建一个具有所有权限的新用户 在该用户下创建表,插入一些值并提交 2.现在我们需要一个连接器,用于将数据从Oracle传输到HDFS。 因此,我们需要下载oracle-sqoop连接器jar文件,并将其放置在CDH3的以下路径中。在您的命令中使用sudo,同时在以下路径中复制,因为它在linux中需要管理员访问权限
/usr/lib/sqoop/bin
-下载link-ojdbc6.jar
使用winscp将下载的jar从windows传输到CDH3。然后将其移动到CDH3中的上述路径
3.指挥部:
sqoopoutput是HDFS中的输出文件,您可以在其中获取数据,您可以根据自己的需要更改dis
-m 1:这说明这个sqoop作业的映射器数量是1
192.168.XX.XX:1521 windows计算机的ip地址以下是分步过程: 1.使用您的凭据连接oracle sql命令行登录: e、 g用户名:系统密码:系统 确保此用户具有所有管理权限,或在oracle中以sysdba身份连接。创建一个具有所有权限的新用户 在该用户下创建表,插入一些值并提交 2.现在我们需要一个连接器,用于将数据从Oracle传输到HDFS。 因此,我们需要下载oracle-sqoop连接器jar文件,并将其放置在CDH3的以下路径中。在您的命令中使用sudo,同时在以下路径中复制,因为它在linux中需要管理员访问权限
/usr/lib/sqoop/bin
-下载link-ojdbc6.jar
使用winscp将下载的jar从windows传输到CDH3。然后将其移动到CDH3中的上述路径
3.指挥部:
sqoopoutput是HDFS中的输出文件,您可以在其中获取数据,您可以根据自己的需要更改dis
-m 1:这说明这个sqoop作业的映射器数量是1
192.168.XX.XX:1521您的windows计算机的ip地址,因此我需要进行备份,并使用Winscp将此备份文件复制到CDH3计算机中,然后使用sqoop将其拉入HDFS。?我说的对吗?@user2998990不,不,你不需要复制任何东西。sqoop会做一切。您只需为oracle提供有效的凭据。因此,我需要使用Winscp在CDH3计算机中备份并复制此备份文件,然后使用sqoop将其拉入HDFS。?我说的对吗?@user2998990不,不,你不需要复制任何东西。sqoop会做一切。您只需为oracle提供有效的凭据。您是否使用自定义hadoop环境或使用任何现成的样式,如CDH或HDP或任何其他?您是否使用自定义hadoop环境或使用任何现成的样式,如CDH或HDP或任何其他?