Lucene项向量多元Bayes模型期望最大化

Lucene项向量多元Bayes模型期望最大化,lucene,expectation-maximization,Lucene,Expectation Maximization,我正在尝试为文档聚类实现一个期望最大化算法。我计划使用Lucene术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的EM算法有两种:多元模型和多项式模型。简单来说,多项式模型使用文档中不同单词的频率,而多元模型仅使用文档中是否存在单词的信息(布尔向量) 我知道Lucene中的术语向量存储当前文档中的术语及其频率。这正是多项式模型所需要的 但多元模型需要以下条件: 存储某一特定项的存在或不存在的向量。因此,所有文档中的所有术语都必须由该向量处理 例如: doc1:现场内容有以下术语:这是快乐的世

我正在尝试为文档聚类实现一个期望最大化算法。我计划使用Lucene术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的EM算法有两种:多元模型和多项式模型。简单来说,多项式模型使用文档中不同单词的频率,而多元模型仅使用文档中是否存在单词的信息(布尔向量)

我知道Lucene中的术语向量存储当前文档中的术语及其频率。这正是多项式模型所需要的

但多元模型需要以下条件: 存储某一特定项的存在或不存在的向量。因此,所有文档中的所有术语都必须由该向量处理

例如:

doc1:现场内容有以下术语:这是快乐的世界

doc2:现场内容有以下几个术语:这个神奇的世界充满了讽刺的人

现在我需要的向量应该是

(它包含所有文档中的所有单词)

对于doc1,该向量的值为

对于doc2,该向量的值为


有没有办法在Lucene中生成这样一个布尔向量?

我会首先生成多项式向量,然后处理它们(可能是它们的文本表示)以得到多元向量

如果文档集不是很小,那么存储完整向量是浪费的。您应该使用稀疏表示,因为每个文档都包含可能的术语的一小部分


描述了从Lucene/Solr文档生成特征向量,尽管我认为这比您已经做的没有多大进步。

我也邮寄了Lucene用户列表,他们建议使用相同的方法处理术语向量以获得我需要的向量。谢谢你抽出时间。