hadoop的各种大数据传输方法如何比较？_Hadoop_Thrift_Data Transfer_Sqoop

hadoop的各种大数据传输方法如何比较？

hadoop

hadoop的各种大数据传输方法如何比较？,hadoop,thrift,data-transfer,sqoop,Hadoop,Thrift,Data Transfer,Sqoop,将数据传输到hadoop集群的方法有很多种，例如，包括以编程方式写入数据（例如，通过a）、通过odbc连接器（例如，sqoop中包含的连接器）、通过Thrift或通过命令行工具进行传输对于大规模原始数据传输能力，各种数据传输选项如何比较上下文：我希望安排一个不规则的过程，将~3TB的数据传输到Hadoop集群中没有太多的要求——只是我要尽快地将数据传输进来；数据传输步骤是这里最重要的瓶颈。数据可以传输到集群上的任何位置—HDFS上的文件或Hbase上的结构化数据我可以选择是从事务性数

将数据传输到hadoop集群的方法有很多种，例如，包括以编程方式写入数据（例如，通过a）、通过odbc连接器（例如，sqoop中包含的连接器）、通过Thrift或通过命令行工具进行传输

对于大规模原始数据传输能力，各种数据传输选项如何比较

上下文：

我希望安排一个不规则的过程，将~3TB的数据传输到Hadoop集群中

没有太多的要求——只是我要尽快地将数据传输进来；数据传输步骤是这里最重要的瓶颈。数据可以传输到集群上的任何位置—HDFS上的文件或Hbase上的结构化数据

我可以选择是从事务性数据库加载数据，还是从文件系统中的一组CSV文件加载数据，如果其他替代方案能够显著提高性能，我可以灵活地尝试

我已经看过了可用的选项，并对什么最有效有了一些直觉，但如果可用的话，我希望看到性能测试信息的任何度量。

我想说，使用

hadoop-fs…

命令将压缩的CSV上传到HDFS将是最快的选项。在这种情况下，网络带宽是限制传输速率的唯一因素

所有其他选项可能只会增加传输数据大小的开销。其中一些可能不会增加开销，但执行控制台命令很简单，为什么会使事情复杂化呢

数据上传到HDFS后，可根据需要进行转换，或使用Pig或Map/Reduce转换为HBase。与本地文件系统上的数据转换相比，HDFS数据的任何转换都将更快，因为处理将是并行的，并且（很可能）它将在存储相应数据块的节点上本地发生