hadoop的各种大数据传输方法如何比较?

hadoop的各种大数据传输方法如何比较?,hadoop,thrift,data-transfer,sqoop,Hadoop,Thrift,Data Transfer,Sqoop,将数据传输到hadoop集群的方法有很多种,例如,包括以编程方式写入数据(例如,通过a)、通过odbc连接器(例如,sqoop中包含的连接器)、通过Thrift或通过命令行工具进行传输 对于大规模原始数据传输能力,各种数据传输选项如何比较 上下文: 我希望安排一个不规则的过程,将~3TB的数据传输到Hadoop集群中 没有太多的要求——只是我要尽快地将数据传输进来;数据传输步骤是这里最重要的瓶颈。数据可以传输到集群上的任何位置—HDFS上的文件或Hbase上的结构化数据 我可以选择是从事务性数

将数据传输到hadoop集群的方法有很多种,例如,包括以编程方式写入数据(例如,通过a)、通过odbc连接器(例如,sqoop中包含的连接器)、通过Thrift或通过命令行工具进行传输

对于大规模原始数据传输能力,各种数据传输选项如何比较


上下文:

我希望安排一个不规则的过程,将~3TB的数据传输到Hadoop集群中

没有太多的要求——只是我要尽快地将数据传输进来;数据传输步骤是这里最重要的瓶颈。数据可以传输到集群上的任何位置—HDFS上的文件或Hbase上的结构化数据

我可以选择是从事务性数据库加载数据,还是从文件系统中的一组CSV文件加载数据,如果其他替代方案能够显著提高性能,我可以灵活地尝试


我已经看过了可用的选项,并对什么最有效有了一些直觉,但如果可用的话,我希望看到性能测试信息的任何度量。

我想说,使用
hadoop-fs…
命令将压缩的CSV上传到HDFS将是最快的选项。在这种情况下,网络带宽是限制传输速率的唯一因素

所有其他选项可能只会增加传输数据大小的开销。其中一些可能不会增加开销,但执行控制台命令很简单,为什么会使事情复杂化呢

数据上传到HDFS后,可根据需要进行转换,或使用Pig或Map/Reduce转换为HBase。与本地文件系统上的数据转换相比,HDFS数据的任何转换都将更快,因为处理将是并行的,并且(很可能)它将在存储相应数据块的节点上本地发生