Lucene.vectors：如何设置标签字段_Lucene_Mahout

Lucene.vectors：如何设置标签字段

lucene

Lucene.vectors：如何设置标签字段,lucene,mahout,Lucene,Mahout,我试图使用mahout的lucene.vectors从lucene索引中提取数据。索引包含Nutch爬网的网页内容。索引的一些字段包括：标题、url、id、文本和类别我知道我可以使用lucene.vectors从索引中获取数据并将其转换为vectors。然而，我不明白的是如何告诉这个工具Lucene中哪个字段包含标签。对于我的场景，category字段是label字段我使用的是mahout 0.9 提前感谢,， Ameer您可能需要一个中间步骤，首先将lucene索引转换为一个序列文件，该文

我试图使用mahout的lucene.vectors从lucene索引中提取数据。索引包含Nutch爬网的网页内容。索引的一些字段包括：标题、url、id、文本和类别

我知道我可以使用lucene.vectors从索引中获取数据并将其转换为vectors。然而，我不明白的是如何告诉这个工具Lucene中哪个字段包含标签。对于我的场景，category字段是label字段

我使用的是mahout 0.9

提前感谢,，

Ameer

您可能需要一个中间步骤，首先将lucene索引转换为一个序列文件，该文件采用键、值对，其中键表示标签。允许您这样做。描述如下：

/***从Lucene索引生成具有指定 id字段作为键，内容字段作为值。*配置这个类包含一个{@link LuceneStorageConfiguration}bean*/

我相信lucene.vector只是将所有文本放入一个向量（引用-）中。您需要一个

格式的序列文件，以便有一个向量和一个标签

然后，您可以简单地读取序列文件并获得向量和标签。如果要计算TFIDF，可以使用

seq2sparse

或

SparseVectorsFromSequenceFiles.java

或者，您也可以手动执行此操作，首先提取标签，然后将其余内容发送到lucene.vector。

谢谢。你的评论真的很有用。我将使用它们作为将来的参考。不过，我已经走了另一条路，解决了这个问题。我从Lucene提取数据，然后用mahout的文本目录格式格式化日期。然后我简单地使用'seqdirectory'，'seq2sparse'来获取训练数据。这更容易做，而且非常直接。