Hadoop 将CSV转换为SequenceFile_Hadoop_Mahout_Sequencefile

Hadoop 将CSV转换为SequenceFile

hadoop

Hadoop 将CSV转换为SequenceFile,hadoop,mahout,sequencefile,Hadoop,Mahout,Sequencefile,我有一个CSV文件，我想将其转换为SequenceFile，我最终将使用该文件创建NamedVector以在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个SequenceFile，然后将该输出输入到带有-nv选项的seq2sparse中，以创建NamedVector。这似乎是给一个大向量作为输出，但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里出错了？seqdirectory命令将每个文件作为一个文档，因此实际上，您只有一个文档，因此您只能得到一个向量

我有一个CSV文件，我想将其转换为SequenceFile，我最终将使用该文件创建NamedVector以在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个SequenceFile，然后将该输出输入到带有-nv选项的seq2sparse中，以创建NamedVector。这似乎是给一个大向量作为输出，但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里出错了？

seqdirectory

命令将每个文件作为一个文档，因此实际上，您只有一个文档，因此您只能得到一个向量。要使其正常工作，您需要将CSV文件的每一行都设置为文件本身，其中文档的键是文件名，值是其内容。尽管如此，如果您的语料库很大，磁盘读写速度可能会非常慢，那么这是不现实的

实际上，您最好按照我在本文中分享的链接进行操作

太好了，谢谢您的帮助。我将查看这些链接。