Hadoop 在';伪分布';模式

Hadoop 在';伪分布';模式,hadoop,mapreduce,Hadoop,Mapreduce,我正在Ubuntu 11.04机器上处理一个700多万行(~59 MB)的文件,配置如下: Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB 英特尔(R)核心(TM)2双CPU E8135@2.66GHz,2280 MHz 内存:2GB 磁盘:100GB 即使跑了45分钟,我也没有看到任何进展 Deleted hdfs://localhost:9000/user/hadoop_adm

我正在Ubuntu 11.04机器上处理一个700多万行(~59 MB)的文件,配置如下:

Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB 英特尔(R)核心(TM)2双CPU E8135@2.66GHz,2280 MHz 内存:2GB 磁盘:100GB 即使跑了45分钟,我也没有看到任何进展

Deleted hdfs://localhost:9000/user/hadoop_admin/output packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null 11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1 11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run: 11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22 INFO streaming.StreamJob: map 0% reduce 0% 删除hdfs://localhost:9000/user/hadoop_admin/output packageJobJar:[/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv,/usr/local/hadoop/mapper.py,/usr/local/hadoop/reducer.py,/tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/][/tmp/streamjob5828364111271840475.jar tmpDir=null 11/07/22 10:39:20信息映射。文件输入格式:要处理的总输入路径:1 11/07/22 10:39:21 INFO streaming.StreamJob:getLocalDirs():[/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21信息流。StreamJob:正在运行的作业:作业\u 201107181559\u 0099 11/07/22 10:39:21信息流。StreamJob:要终止此作业,请运行: 11/07/22 10:39:21 INFO streaming.StreamJob:/usr/local/hadoop/bin/。/bin/hadoop job-Dmapred.job.tracker=localhost:9001-kill job_201107181559_0099 11/07/22 10:39:21信息流。StreamJob:跟踪URL:http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22信息流。StreamJob:映射0%减少0% 在
pseudo-distributed
模式下,使用
Hadoop
可以处理的最大文件大小是多少

更新:


我正在使用Hadoop流媒体制作一个简单的字数计算应用程序。我的
mapper.py
reducer.py
花了大约
50秒的时间处理一个220K行(~19MB)的文件

问题解决了,我没有杀死以前的作业,所以这个作业加入了队列,这就是它被延迟的原因。我曾经
bin/hadoop-kill

杀死所有待处理的作业。在
伪分布式模式下处理整个文件(~59 MB)花费了
~140秒
大小限制实际上是由可用存储的大小决定的。为了让您了解我的想法,我在一个节点上处理大小为几GiB的输入文件(gzip压缩的apache日志文件)已经有相当一段时间了。唯一真正的限制是需要多少时间,以及这对你来说是否足够快