Lucene.vectors:如何设置标签字段

Lucene.vectors:如何设置标签字段,lucene,mahout,Lucene,Mahout,我试图使用mahout的lucene.vectors从lucene索引中提取数据。索引包含Nutch爬网的网页内容。索引的一些字段包括:标题、url、id、文本和类别 我知道我可以使用lucene.vectors从索引中获取数据并将其转换为vectors。然而,我不明白的是如何告诉这个工具Lucene中哪个字段包含标签。对于我的场景,category字段是label字段 我使用的是mahout 0.9 提前感谢,, Ameer您可能需要一个中间步骤,首先将lucene索引转换为一个序列文件,该文

我试图使用mahout的lucene.vectors从lucene索引中提取数据。索引包含Nutch爬网的网页内容。索引的一些字段包括:标题、url、id、文本和类别

我知道我可以使用lucene.vectors从索引中获取数据并将其转换为vectors。然而,我不明白的是如何告诉这个工具Lucene中哪个字段包含标签。对于我的场景,category字段是label字段

我使用的是mahout 0.9

提前感谢,,
Ameer

您可能需要一个中间步骤,首先将lucene索引转换为一个序列文件,该文件采用键、值对,其中键表示标签。允许您这样做。描述如下:

/***从Lucene索引生成具有指定 id字段作为键,内容字段作为值。*配置 这个类包含一个{@link LuceneStorageConfiguration}bean*/

我相信lucene.vector只是将所有文本放入一个向量(引用-)中。您需要一个
格式的序列文件,以便有一个向量和一个标签

然后,您可以简单地读取序列文件并获得向量和标签。如果要计算TFIDF,可以使用
seq2sparse
SparseVectorsFromSequenceFiles.java


或者,您也可以手动执行此操作,首先提取标签,然后将其余内容发送到lucene.vector。

谢谢。你的评论真的很有用。我将使用它们作为将来的参考。不过,我已经走了另一条路,解决了这个问题。我从Lucene提取数据,然后用mahout的文本目录格式格式化日期。然后我简单地使用'seqdirectory','seq2sparse'来获取训练数据。这更容易做,而且非常直接。