SQOOP从RDBMS到Hadoop的传输速度有多快?

SQOOP从RDBMS到Hadoop的传输速度有多快?,hadoop,sqoop,Hadoop,Sqoop,有人能告诉我,SQOOP一次能以多快的速度传输20亿条记录吗。我知道它一定很快,因为sqoop是并行运行的,在Hadoop上会产生一些输入和一些文件输出。但我想知道speed MapReduce一次传输20亿条记录的详细信息。您需要了解将数据从RDBMS更快传输到Hadoop的要点 映射者数量: 增加映射器的数量将提高速度,因为它将任务分成若干部分,并并行执行导入 映射器上的平衡负载: 您需要在统一的列上拆分(首选整数)。它将为所有映射器提供平衡负载,传输速度更快 来自RDBMS的连接数:

有人能告诉我,SQOOP一次能以多快的速度传输20亿条记录吗。我知道它一定很快,因为sqoop是并行运行的,在Hadoop上会产生一些输入和一些文件输出。但我想知道speed MapReduce一次传输20亿条记录的详细信息。

您需要了解将数据从RDBMS更快传输到Hadoop的要点

  • 映射者数量:

    增加映射器的数量将提高速度,因为它将任务分成若干部分,并并行执行导入

  • 映射器上的平衡负载:

    您需要在统一的列上拆分(首选整数)。它将为所有映射器提供平衡负载,传输速度更快

  • 来自RDBMS的连接数:

    你不能盲目地增加地图绘制者的数量(比如100或更多)。您的RDBMS应该允许这些并发连接,否则它将成为RDBMS方面的瓶颈

  • 使用
    --直接
    模式:

    如果sqoop为特定的RDBMS提供了直接连接器,那么您应该使用它。这将使传输更快



简而言之,sqoop的速度足以传输数十亿条记录,只要在编写导入命令时记住这些点即可。

这取决于为该作业分配的映射器数量。因此,例如,如果独立(单个)进程需要4分钟来传输数据,那么使用4个映射器的Sqoop将需要不到1分钟的时间。您没有指出网络和RDMS本身是限制因素,我们(这是一个真实的示例)有一个远程集群,它只有有限的带宽,因此,它限制了最大传输速度,而您指出的任何内容都无助于此。RDMS也很重要,它是单节点系统还是分布式系统,负载有多重?@MaxNevermind我同意你的看法。您可以选择另一个提及其他要点的答案:)