Hadoop 通过独特的技术将数据摄取到HDFS中

Hadoop 通过独特的技术将数据摄取到HDFS中,hadoop,hdfs,oozie,Hadoop,Hdfs,Oozie,我想将非半结构化数据(MS word/PDF/JSON)从远程计算机传输到hadoop(可以是批处理的,可以是近实时的,但不能是流式的) 我必须确保数据从远程位置快速移动到本地机器(在低带宽上工作)到HDFS或本地机器。 例如,Internet下载管理器有一种惊人的技术,即使用FTP建立多个连接,并通过更多连接利用低带宽 Hadoop生态系统是否有可能提供这样的工具将数据摄取到Hadoop中。还是自制的技术 哪种工具/技术可能更好。您可以使用Web HDFS API

我想将非半结构化数据(MS word/PDF/JSON)从远程计算机传输到hadoop(可以是批处理的,可以是近实时的,但不能是流式的)

我必须确保数据从远程位置快速移动到本地机器(在低带宽上工作)到HDFS或本地机器。 例如,Internet下载管理器有一种惊人的技术,即使用FTP建立多个连接,并通过更多连接利用低带宽

Hadoop生态系统是否有可能提供这样的工具将数据摄取到Hadoop中。还是自制的技术


哪种工具/技术可能更好。

您可以使用Web HDFS API