Hadoop 在'；伪分布'；模式_Hadoop_Mapreduce

Hadoop 在'；伪分布'；模式

hadoop mapreduce

Hadoop 在'；伪分布'；模式,hadoop,mapreduce,Hadoop,Mapreduce,我正在Ubuntu 11.04机器上处理一个700多万行（~59 MB）的文件，配置如下： Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB 英特尔（R）核心（TM）2双CPU E8135@2.66GHz，2280 MHz 内存：2GB 磁盘：100GB 即使跑了45分钟，我也没有看到任何进展 Deleted hdfs://localhost:9000/user/hadoop_adm

我正在Ubuntu 11.04机器上处理一个700多万行（~59 MB）的文件，配置如下：

Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB 英特尔（R）核心（TM）2双CPU E8135@2.66GHz，2280 MHz 内存：2GB 磁盘：100GB 即使跑了45分钟，我也没有看到任何进展

Deleted hdfs://localhost:9000/user/hadoop_admin/output packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null 11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1 11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run: 11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22 INFO streaming.StreamJob: map 0% reduce 0% 删除hdfs://localhost:9000/user/hadoop_admin/output packageJobJar:[/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv，/usr/local/hadoop/mapper.py，/usr/local/hadoop/reducer.py，/tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/][/tmp/streamjob5828364111271840475.jar tmpDir=null 11/07/22 10:39:20信息映射。文件输入格式：要处理的总输入路径：1 11/07/22 10:39:21 INFO streaming.StreamJob:getLocalDirs（）：[/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21信息流。StreamJob:正在运行的作业：作业\u 201107181559\u 0099 11/07/22 10:39:21信息流。StreamJob:要终止此作业，请运行： 11/07/22 10:39:21 INFO streaming.StreamJob:/usr/local/hadoop/bin/。/bin/hadoop job-Dmapred.job.tracker=localhost:9001-kill job_201107181559_0099 11/07/22 10:39:21信息流。StreamJob:跟踪URL:http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22信息流。StreamJob:映射0%减少0% 在

pseudo-distributed

模式下，使用

Hadoop

可以处理的最大文件大小是多少

更新：

我正在使用Hadoop流媒体制作一个简单的字数计算应用程序。我的

mapper.py

和

reducer.py

花了大约

50秒的时间处理一个220K行（~19MB）的文件 问题解决了，我没有杀死以前的作业，所以这个作业加入了队列，这就是它被延迟的原因。我曾经
bin/hadoop-kill
杀死所有待处理的作业。在伪分布式模式下处理整个文件（~59 MB）花费了~140秒
，
大小限制实际上是由可用存储的大小决定的。为了让您了解我的想法，我在一个节点上处理大小为几GiB的输入文件（gzip压缩的apache日志文件）已经有相当一段时间了。唯一真正的限制是需要多少时间，以及这对你来说是否足够快