Java Mahout:将一个大文本文件转换为SequenceFile格式

Java Mahout:将一个大文本文件转换为SequenceFile格式,java,mahout,sequencefile,Java,Mahout,Sequencefile,我已经在网上做了很多搜索,但是我什么也没找到,尽管我觉得这一定很普遍。过去,我使用Mahout的seqdirectory命令转换包含文本文件的文件夹(每个文件都是单独的文档)。但在本例中,文档太多(在10万个文档中),因此我有一个非常大的文本文件,其中每一行都是一个文档。如何将这个大文件转换为SequenceFile格式,以便Mahout理解每一行都应该被视为一个单独的文档?非常感谢您的帮助。是的,如何做到这一点并不十分明显或非常直观,但(幸运的是:p)例如,我在stack中多次回答了这个问题。

我已经在网上做了很多搜索,但是我什么也没找到,尽管我觉得这一定很普遍。过去,我使用Mahout的seqdirectory命令转换包含文本文件的文件夹(每个文件都是单独的文档)。但在本例中,文档太多(在10万个文档中),因此我有一个非常大的文本文件,其中每一行都是一个文档。如何将这个大文件转换为SequenceFile格式,以便Mahout理解每一行都应该被视为一个单独的文档?非常感谢您的帮助。

是的,如何做到这一点并不十分明显或非常直观,但(幸运的是:p)例如,我在stack中多次回答了这个问题。看一看;)

是的,如何做到这一点并不十分明显或非常直观,尽管(幸运的是:p)例如,我在stack中多次回答了这个确切的问题。看一看;)

可能的重复可能的重复