Hadoop 将CSV转换为SequenceFile

Hadoop 将CSV转换为SequenceFile,hadoop,mahout,sequencefile,Hadoop,Mahout,Sequencefile,我有一个CSV文件,我想将其转换为SequenceFile,我最终将使用该文件创建NamedVector以在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个SequenceFile,然后将该输出输入到带有-nv选项的seq2sparse中,以创建NamedVector。这似乎是给一个大向量作为输出,但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里出错了?seqdirectory命令将每个文件作为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量

我有一个CSV文件,我想将其转换为SequenceFile,我最终将使用该文件创建NamedVector以在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个SequenceFile,然后将该输出输入到带有-nv选项的seq2sparse中,以创建NamedVector。这似乎是给一个大向量作为输出,但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里出错了?

seqdirectory
命令将每个文件作为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量。要使其正常工作,您需要将CSV文件的每一行都设置为文件本身,其中文档的是文件名,是其内容。尽管如此,如果您的语料库很大,磁盘读写速度可能会非常慢,那么这是不现实的


实际上,您最好按照我在本文中分享的链接进行操作

太好了,谢谢您的帮助。我将查看这些链接。