Vector 如何将下面的文本转换为序列文件,该文件将再次转换为mahoutkmeans的向量?

Vector 如何将下面的文本转换为序列文件,该文件将再次转换为mahoutkmeans的向量?,vector,mahout,k-means,sequencefile,Vector,Mahout,K Means,Sequencefile,大家下午好 我的数据格式如下: ID:VALUE(用户分配的标签) 0001:“PC、THINKPAD、T500” 0002:“手机、手机、IPHONE、苹果、IPHONE 5” ……等等 如何编写代码以: 1) 首先,将它们转换为key:value格式的序列文件 2) 然后,将上面的序列文件转换为将用于kmeans聚类的向量 我正在检查SequenceFileFromdDirectory和SparseVectorFromSequenceFiles,但是这些文件现在看起来有点复杂,也有点难以阅读

大家下午好

我的数据格式如下:

ID:VALUE(用户分配的标签) 0001:“PC、THINKPAD、T500”

0002:“手机、手机、IPHONE、苹果、IPHONE 5”

……等等

如何编写代码以:

1) 首先,将它们转换为key:value格式的序列文件

2) 然后,将上面的序列文件转换为将用于kmeans聚类的向量

我正在检查SequenceFileFromdDirectory和SparseVectorFromSequenceFiles,但是这些文件现在看起来有点复杂,也有点难以阅读

所以,我想知道这里是否有人能给我一个关于如何进行上述两种转换的简单示例代码


多谢各位

这两个进程正是您想要做的,现在只需使输出具有可读性,而不是使用
seqdumper
功能的序列文件


如果您需要更清晰的图片,请看一看,非常好的介绍。

这两个过程正是您想要做的,现在只需让输出具有可读性,而不是序列文件,您可以使用
seqdumper
功能


如果您需要更清晰的图片,请看一看,非常好的介绍。

seqdirectory将目录结构转换为序列文件,而我的所有数据都在一个文件中。无论如何,我已经编写了一些代码,将Key:value格式的数据放入序列文件。并使用seq2sparse,kmeans成功地完成了其余的工作。非常感谢您的回复!您还可以查看这两个示例,它们在某种程度上也确实/解释了如何使用序列文件API。seqdirectory将目录结构转换为序列文件,而我的所有数据都在一个文件中。无论如何,我已经编写了一些代码,将Key:value格式的数据放入序列文件。并使用seq2sparse,kmeans成功地完成了其余的工作。非常感谢您的回复!您还可以查看这两个示例,它们在某种程度上也确实/解释了如何使用序列文件API。和