Oracle Hadoop连接器与Sqoop

Oracle Hadoop连接器与Sqoop,hadoop,jdbc,sqoop,Hadoop,Jdbc,Sqoop,我使用Sqoop将数据从Oracle摄取到Hadoop,效果很好。不使用Sqoop上的分区,只需4分钟就可以将8600万条记录从Oracle带到Hive表。任何人都可以提供一些关于Oracle Hadoop连接器的详细信息,它的性能会比Sqoop好吗?Sqoop将利用标准JDBC连接。Oracles连接器将与集成到sqoop连接中的fastloader/fastexport类一起工作。Sqoop应该更快。大多数连接器的性能与您在工作流程的最后拥有一组MapReduce作业的性能接近,这将在您的总

我使用Sqoop将数据从Oracle摄取到Hadoop,效果很好。不使用Sqoop上的分区,只需4分钟就可以将8600万条记录从Oracle带到Hive表。任何人都可以提供一些关于Oracle Hadoop连接器的详细信息,它的性能会比Sqoop好吗?

Sqoop将利用标准JDBC连接。Oracles连接器将与集成到sqoop连接中的fastloader/fastexport类一起工作。Sqoop应该更快。

大多数连接器的性能与您在工作流程的最后拥有一组MapReduce作业的性能接近,这将在您的总体性能中发挥主要作用

Oracle为访问配置单元提供了一组不同的连接器,您可以查看有关标准解决方案的详细概述,但我怀疑最终您是否会期望在Sqoop中看到显著的性能差异:

Sqoop是一个用于处理Hadoop领域中的关系数据库的通用工具,它不仅限于Oracle。此外,它还与其他Hadoop解决方案(如Oozie)进行了集成,以生成复杂的工作流,这使它成为其他类型连接器的理想选择


就我个人而言,对于Hadoop驱动的导入导出操作,我更喜欢Sqoop,对于Hadoop中的数据查询,我更喜欢连接器方法

根据Oracle文档:OracleLoaderforHadoop是一个在Hadoop集群上运行的MapReduce程序,用于预处理数据。它可以对数据进行分区、排序,并将数据转换为Oracle数据类型,为加载做好准备。这会将一些数据库周期卸载到Hadoop上,从而在加载过程中使用更少的数据库CPU。在联机模式下,预处理的数据直接加载到数据库中。在离线模式下,OracleLoaderforHadoop将预处理的数据作为数据泵文件写入HDFS。在线模式下有两个加载选项,JDBC和direct path。