Hadoop 映射reduce以从ftp读取文件_Hadoop_Ftp_Parallel Processing_Mapreduce_Hadoop Streaming

Hadoop 映射reduce以从ftp读取文件

hadoop ftp parallel-processing mapreduce

Hadoop 映射reduce以从ftp读取文件,hadoop,ftp,parallel-processing,mapreduce,hadoop-streaming,Hadoop,Ftp,Parallel Processing,Mapreduce,Hadoop Streaming,我们有一个从FTP服务器下载文件的应用程序。我们计划使用Map reduce从ftp下载文件来提高其效率。我的第一个问题是，使用Map reduce真的可以提高效率吗？从逻辑上讲，我们认为多个映射器和每个映射器中的一个读取通道实际上会使并行下载过程更快。但我们不确定是否存在技术障碍。有什么建议吗如果您希望通过使用Map Reduce来提高下载速度，那么这不会有多大帮助使用Map Reduce可以做的是，如果您有100Gb的文件，并且希望有效地处理这些文件并查找特定单词的数量。但是，即使是M

我们有一个从FTP服务器下载文件的应用程序。我们计划使用Map reduce从ftp下载文件来提高其效率。我的第一个问题是，使用Map reduce真的可以提高效率吗？从逻辑上讲，我们认为多个映射器和每个映射器中的一个读取通道实际上会使并行下载过程更快。

但我们不确定是否存在技术障碍。有什么建议吗

如果您希望通过使用Map Reduce来提高下载速度，那么这不会有多大帮助

使用Map Reduce可以做的是，如果您有100Gb的文件，并且希望有效地处理这些文件并查找特定单词的数量。但是，即使是MapReduce也不能直接在FTP中可用的文件上工作。为了让MapReduce工作，您需要该文件在Hadoop分布式文件系统（HDFS）中可用

要了解什么是hadoop，什么不是hadoop，请阅读本文

谢谢你，沙辛。。请澄清“但即使是Map Reduce也不能直接在FTP中可用的文件上工作。为了使Map Reduce工作，您需要该文件在Hadoop分布式文件系统（HDFS）中可用。”这是否意味着Map Reduce无法在FTP服务器上的文件上工作？是的。Map Reduce要求下载文件并“放入”HDFS中，然后才能将其用于处理。它不能直接在FTP服务器文件上执行。再次感谢。。但后来我希望类似DBInputFormat类的东西，该类使用MapReduce直接从数据库读取数据。在这里，在执行mapreduce读取之前，它不会将内容引入hdfs。知道我们是否有类似于文件读取器的东西吗？是的，DBInputFormat将使您能够源数据库表来映射Reduce程序，而无需在HDFS中使用它。但在这种情况下，将进行数据库读取（ResultSet）。但FTP的情况不同。无论如何，你必须下载文件来读取它。FTP文件流可能是可能的，但会导致带宽问题。