Hadoop 每周从FTP下载文件到HDFS

Hadoop 每周从FTP下载文件到HDFS,hadoop,ftp,hdfs,cloudera,oozie,Hadoop,Ftp,Hdfs,Cloudera,Oozie,我希望每周自动将文件从ftp服务器下载到CDH5 hadoop集群。最好的方法是什么 我在考虑一个Oozie协调员的工作,但是我想不出一个下载文件的好方法 因为您使用的是CDH5,所以值得注意的是,HDFS的接口包含在Hadoop发行版中。您应该检查CDH5安装指南文档中的“” 完成后,您可以使用wget、curl、python等将文件放到NFS挂载上。你可能想通过Oozie做到这一点。。。进入作业设计器并创建“Shell”命令的副本。输入您选择执行数据传输的命令(python脚本、curl、f

我希望每周自动将文件从ftp服务器下载到CDH5 hadoop集群。最好的方法是什么


我在考虑一个Oozie协调员的工作,但是我想不出一个下载文件的好方法

因为您使用的是CDH5,所以值得注意的是,HDFS的接口包含在Hadoop发行版中。您应该检查CDH5安装指南文档中的“”

完成后,您可以使用wget、curl、python等将文件放到NFS挂载上。你可能想通过Oozie做到这一点。。。进入作业设计器并创建“Shell”命令的副本。输入您选择执行数据传输的命令(python脚本、curl、ftp等),并使用${myVar}参数化作业


它并不完美,但我认为它相当优雅。

我想你应该要拉一个文件

一个简单的解决方案是,您可以使用运行工作流的协调器

工作流应具有shell操作

其中的脚本可以

wget


您可以在脚本中执行所有您想要的操作,这也是一个好主意,但是下载文件怎么样?我在考虑使用distcp,但也许有一个更优雅的解决方案?distcp是优雅的!我想不出比这更优雅的了:)当我使用这个命令时:hadoop distcp hdfs:/user/myuser/test/I得到一个java.io.IOException:Login失败在服务器上-服务器地址,端口-21异常。。。我做卷发没有问题。我应该使用21以外的端口吗?或者hftp?同时我也有类似的事情发生。我使用一个shell脚本装载带有curlftpfs的ftp服务器,然后使用copyFromLocal将文件拉入hdfs。谢谢你的帮助!我现在有一个shell脚本,它使用curlftpfs将ftp服务器装载到文件系统中,然后使用copyFromLocal将文件拉入hdfs。与crontab相比,使用Oozie协调器和工作流有什么优势?