Vector java.lang.OutOfMemoryError：在mahout中运行seq2sparse时发生java堆空间错误_Vector_Hadoop_Mahout

Vector java.lang.OutOfMemoryError：在mahout中运行seq2sparse时发生java堆空间错误

vector hadoop

Vector java.lang.OutOfMemoryError：在mahout中运行seq2sparse时发生java堆空间错误,vector,hadoop,mahout,Vector,Hadoop,Mahout,我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我已经创建了6个文件，每个文件中几乎没有1到2个单词的文本。使用./mahout seqdirectory创建了一个序列文件。在尝试使用./mahout seq2sparse命令将序列文件转换为向量时，我得到了java.lang.OutOfMemoryError:java堆空间错误。序列文件的大小为.215KB 命令：./mahout seq2sparse-i mokha/output-o mokha/vector-ow

我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我已经创建了6个文件，每个文件中几乎没有1到2个单词的文本。使用./mahout seqdirectory创建了一个序列文件。在尝试使用./mahout seq2sparse命令将序列文件转换为向量时，我得到了java.lang.OutOfMemoryError:java堆空间错误。序列文件的大小为.215KB

命令：./mahout seq2sparse-i mokha/output-o mokha/vector-ow

错误日志：

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/bitnami/mahout/mahout-distribution-0.5/m
ahout-examples-0.5-job.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/bitnami/mahout/mahout-distribution-0.5/l
ib/slf4j-jcl-1.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
Apr 24, 2013 2:25:11 AM org.slf4j.impl.JCLLoggerAdapter warn
WARNING: No seq2sparse.props found on classpath, will use command-line arguments
 only
Apr 24, 2013 2:25:12 AM org.slf4j.impl.JCLLoggerAdapter info
INFO: Maximum n-gram size is: 1
Apr 24, 2013 2:25:12 AM org.slf4j.impl.JCLLoggerAdapter info
INFO: Deleting mokha/vector
Apr 24, 2013 2:25:12 AM org.slf4j.impl.JCLLoggerAdapter info
INFO: Minimum LLR value: 1.0
Apr 24, 2013 2:25:12 AM org.slf4j.impl.JCLLoggerAdapter info
INFO: Number of reduce tasks: 1
Apr 24, 2013 2:25:12 AM org.apache.hadoop.metrics.jvm.JvmMetrics init
INFO: Initializing JVM Metrics with processName=JobTracker, sessionId=
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Running job: job_local_0001
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.Task done
INFO: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commi
ting
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.LocalJobRunner$Job statusUpdate
INFO:
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.Task commit
INFO: Task attempt_local_0001_m_000000_0 is allowed to commit now
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapreduce.lib.output.FileOutputCommitt
er commitTask
INFO: Saved output of task 'attempt_local_0001_m_000000_0' to mokha/vector/token
ized-documents
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.LocalJobRunner$Job statusUpdate
INFO:
Apr 24, 2013 2:25:12 AM org.apache.hadoop.mapred.Task sendDone
INFO: Task 'attempt_local_0001_m_000000_0' done.
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO:  map 100% reduce 0%
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Job complete: job_local_0001
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO: Counters: 5
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:   FileSystemCounters
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:     FILE_BYTES_READ=1471400
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:     FILE_BYTES_WRITTEN=1496783
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:   Map-Reduce Framework
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:     Map input records=6
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:     Spilled Records=0
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.Counters log
INFO:     Map output records=6
Apr 24, 2013 2:25:13 AM org.apache.hadoop.metrics.jvm.JvmMetrics init
INFO: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - al
ready initialized
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Running job: job_local_0002
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:13 AM org.apache.hadoop.mapred.MapTask$MapOutputBuffer <init>
INFO: io.sort.mb = 100
Apr 24, 2013 2:25:14 AM org.apache.hadoop.mapred.LocalJobRunner$Job run
WARNING: job_local_0002
java.lang.OutOfMemoryError: Java heap space
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:
781)
        at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.ja
va:524)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:613)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:1
77)
Apr 24, 2013 2:25:14 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO:  map 0% reduce 0%
Apr 24, 2013 2:25:14 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Job complete: job_local_0002
Apr 24, 2013 2:25:14 AM org.apache.hadoop.mapred.Counters log
INFO: Counters: 0
Apr 24, 2013 2:25:14 AM org.apache.hadoop.metrics.jvm.JvmMetrics init
INFO: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - al
ready initialized
Apr 24, 2013 2:25:15 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:15 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Running job: job_local_0003
Apr 24, 2013 2:25:15 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 1
Apr 24, 2013 2:25:15 AM org.apache.hadoop.mapred.MapTask$MapOutputBuffer <init>
INFO: io.sort.mb = 100
Apr 24, 2013 2:25:15 AM org.apache.hadoop.mapred.LocalJobRunner$Job run
WARNING: job_local_0003
java.lang.OutOfMemoryError: Java heap space
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:
781)
        at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.ja
va:524)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:613)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:1
77)
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO:  map 0% reduce 0%
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Job complete: job_local_0003
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapred.Counters log
INFO: Counters: 0
Apr 24, 2013 2:25:16 AM org.apache.hadoop.metrics.jvm.JvmMetrics init
INFO: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - al
ready initialized
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 0
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Running job: job_local_0004
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
INFO: Total input paths to process : 0
Apr 24, 2013 2:25:16 AM org.apache.hadoop.mapred.LocalJobRunner$Job run
WARNING: job_local_0004
java.lang.IndexOutOfBoundsException: Index: 0, Size: 0
        at java.util.ArrayList.RangeCheck(ArrayList.java:547)
        at java.util.ArrayList.get(ArrayList.java:322)
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:1
24)
Apr 24, 2013 2:25:17 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO:  map 0% reduce 0%
Apr 24, 2013 2:25:17 AM org.apache.hadoop.mapred.JobClient monitorAndPrintJob
INFO: Job complete: job_local_0004
Apr 24, 2013 2:25:17 AM org.apache.hadoop.mapred.Counters log
INFO: Counters: 0
Apr 24, 2013 2:25:17 AM org.slf4j.impl.JCLLoggerAdapter info
INFO: Deleting mokha/vector/partial-vectors-0
Apr 24, 2013 2:25:17 AM org.apache.hadoop.metrics.jvm.JvmMetrics init
INFO: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - al
ready initialized
Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputExc
eption: Input path does not exist: file:/home/bitnami/mahout/mahout-distribution
-0.5/bin/mokha/vector/tf-vectors
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(File
InputFormat.java:224)
        at org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.listSta
tus(SequenceFileInputFormat.java:55)
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileI
nputFormat.java:241)
        at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:7
79)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
        at org.apache.mahout.vectorizer.tfidf.TFIDFConverter.startDFCounting(TFI
DFConverter.java:350)
        at org.apache.mahout.vectorizer.tfidf.TFIDFConverter.processTfIdf(TFIDFC
onverter.java:151)
        at org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.run(Spars
eVectorsFromSequenceFiles.java:262)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)
        at org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.main(Spar
seVectorsFromSequenceFiles.java:52)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.
java:39)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAcces
sorImpl.java:25)
        at java.lang.reflect.Method.invoke(Method.java:597)
        at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(Progra
mDriver.java:68)
        at org.apache.hadoop.util.ProgramDriver.driver(ProgramDriver.java:139)
        at org.apache.mahout.driver.MahoutDriver.main(MahoutDriver.java:187)

SLF4J:类路径包含多个SLF4J绑定。
SLF4J:在[jar:file:/home/bitnami/mahout/mahout-distribution-0.5/m]中找到绑定
ahout-examples-0.5-job.jar！/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J:在[jar:file:/home/bitnami/mahout/mahout-distribution-0.5/l]中找到绑定
ib/slf4j-jcl-1.6.0.jar！/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J：参见http://www.slf4j.org/codes.html#multiple_bindings 我需要一个解释。
2013年4月24日凌晨2:25:11 org.slf4j.impl.jcllogger
警告：在类路径上找不到seq2sparse.props，将使用命令行参数
只有
2013年4月24日凌晨2:25:12 org.slf4j.impl.jcllogger适配器信息
信息：最大n克大小为：1
2013年4月24日凌晨2:25:12 org.slf4j.impl.jcllogger适配器信息
信息：删除mokha/vector
2013年4月24日凌晨2:25:12 org.slf4j.impl.jcllogger适配器信息
信息：最低LLR值：1.0
2013年4月24日凌晨2:25:12 org.slf4j.impl.jcllogger适配器信息
信息：减少任务数：1
2013年4月24日凌晨2:25:12 org.apache.hadoop.metrics.jvm.JvmMetrics init
信息：使用processName=JobTracker，sessionId初始化JVM度量=
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：正在运行作业：作业\u本地\u 0001
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.Task完成
信息：任务：已完成尝试\u本地\u 0001\u百万\u 0。目前正在进行委员会审议
叮叮声
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.LocalJobRunner$Job statusUpdate
信息：
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.Task提交
信息：现在允许提交任务尝试\u本地\u 0001\u m\u000000\u 0
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapreduce.lib.output.FileOutputCommitt
er委员会任务
信息：已将任务“trunt\u local\u 0001\u m\u000000\u 0”的输出保存到mokha/vector/token
非标准化文件
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.LocalJobRunner$Job statusUpdate
信息：
2013年4月24日凌晨2:25:12 org.apache.hadoop.mapred.Task sendDone
信息：任务“尝试\u本地\u 0001\u m\u000000\u 0”已完成。
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：地图100%减少0%
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：作业完成：作业\u本地\u 0001
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
资料:柜台:5
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：文件系统计数器
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：文件字节读取=1471400
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：文件字节写入=1496783
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：MapReduce框架
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：地图输入记录=6
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：溢出的记录=0
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.Counters日志
信息：地图输出记录=6
2013年4月24日凌晨2:25:13 org.apache.hadoop.metrics.jvm.JvmMetrics init
信息：无法使用processName=JobTracker，sessionId=-al初始化JVM度量
已初始化就绪
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：正在运行作业：作业\u本地\u 0002
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:13 org.apache.hadoop.mapred.MapTask$MapOutputBuffer
信息：io.sort.mb=100
2013年4月24日凌晨2:25:14 org.apache.hadoop.mapred.LocalJobRunner$Job run
警告：作业\u本地\u 0002
java.lang.OutOfMemoryError:java堆空间
位于org.apache.hadoop.mapred.MapTask$MapOutputBuffer。（MapTask.java:
781)
在org.apache.hadoop.mapred.MapTask$NewOutputCollector上
弗吉尼亚州：524）
位于org.apache.hadoop.mapred.MapTask.runNewMapper（MapTask.java:613）
位于org.apache.hadoop.mapred.MapTask.run（MapTask.java:305）
在org.apache.hadoop.mapred.LocalJobRunner$Job.run（LocalJobRunner.java:1
77)
2013年4月24日凌晨2:25:14 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：地图0%减少0%
2013年4月24日凌晨2:25:14 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：作业完成：作业\u本地\u 0002
2013年4月24日凌晨2:25:14 org.apache.hadoop.mapred.Counters日志
信息：计数器：0
2013年4月24日凌晨2:25:14 org.apache.hadoop.metrics.jvm.JvmMetrics init
信息：无法使用processName=JobTracker，sessionId=-al初始化JVM度量
已初始化就绪
2013年4月24日凌晨2:25:15 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:15 org.apache.hadoop.mapred.JobClient monitor和printjob
信息：正在运行作业：作业\u本地\u 0003
2013年4月24日凌晨2:25:15 org.apache.hadoop.mapreduce.lib.input.FileInputFormat li
stStatus
信息：要处理的总输入路径：1
2013年4月24日凌晨2:25:15 org.apache.hadoop.mapred.MapTask$MapOutputBuffer
信息：io.sort.mb=100
2013年4月24日凌晨2:25:15 org.apache.hadoop.mapred.LocalJobRunner$Job run
警告：作业\u本地\u 0003
java.lang.OutOfMemoryError:java堆空间
在org.apache.hadoop.mapred.MapT
'Set the environment variable 'MAVEN_OPTS' to allow for more memory via 'export MAVEN_OPTS=-Xmx1024m'

export MAHOUT_HEAPSIZE=10000m