Hadoop 将文本文件转换为序列文件

Hadoop 将文本文件转换为序列文件,hadoop,sequencefile,Hadoop,Sequencefile,我是Hadoop和Mahout的新手。 我想知道如何将包含一组向量的简单文本文件转换为序列文件。我尝试了MR框架,并将outputFormat更改为SequenceFileOutputFormat,我得到了以下输出 SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�样本0 1 2 3 4 5 样本1 抽样 这些模糊的字符是二进制的,因此无法读取,但我的问题是如何获取sample0 1 2 3 4,其他类似于S

我是Hadoop和Mahout的新手。 我想知道如何将包含一组向量的简单文本文件转换为序列文件。我尝试了MR框架,并将outputFormat更改为SequenceFileOutputFormat,我得到了以下输出

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�样本0 1 2 3 4 5 样本1 抽样

这些模糊的字符是二进制的,因此无法读取,但我的问题是如何获取sample0 1 2 3 4,其他类似于SequenceFile格式(二进制格式)

我相信这可以通过改变mapper函数的输出来实现,但是我无法理解


-谢谢您的时间。

序列文件不是人类可读的。它是加密的。如果您想阅读它的内容,请参考更正我如果我在我的情况下出错,我认为我的序列文件不正确,因为sample0 1 2 3 4也应该加密,这是文件的实际数据。您所说的是在成功创建序列文件之后。