Lucene项向量多元Bayes模型期望最大化_Lucene_Expectation Maximization

Lucene项向量多元Bayes模型期望最大化

lucene

Lucene项向量多元Bayes模型期望最大化,lucene,expectation-maximization,Lucene,Expectation Maximization,我正在尝试为文档聚类实现一个期望最大化算法。我计划使用Lucene术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的EM算法有两种：多元模型和多项式模型。简单来说，多项式模型使用文档中不同单词的频率，而多元模型仅使用文档中是否存在单词的信息（布尔向量）我知道Lucene中的术语向量存储当前文档中的术语及其频率。这正是多项式模型所需要的但多元模型需要以下条件：存储某一特定项的存在或不存在的向量。因此，所有文档中的所有术语都必须由该向量处理例如： doc1：现场内容有以下术语：这是快乐的世

我正在尝试为文档聚类实现一个期望最大化算法。我计划使用Lucene术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的EM算法有两种：多元模型和多项式模型。简单来说，多项式模型使用文档中不同单词的频率，而多元模型仅使用文档中是否存在单词的信息（布尔向量）

我知道Lucene中的术语向量存储当前文档中的术语及其频率。这正是多项式模型所需要的

但多元模型需要以下条件：存储某一特定项的存在或不存在的向量。因此，所有文档中的所有术语都必须由该向量处理

例如：

doc1：现场内容有以下术语：这是快乐的世界

doc2：现场内容有以下几个术语：这个神奇的世界充满了讽刺的人

现在我需要的向量应该是

（它包含所有文档中的所有单词）

对于doc1，该向量的值为

对于doc2，该向量的值为

有没有办法在Lucene中生成这样一个布尔向量？

我会首先生成多项式向量，然后处理它们（可能是它们的文本表示）以得到多元向量

如果文档集不是很小，那么存储完整向量是浪费的。您应该使用稀疏表示，因为每个文档都包含可能的术语的一小部分

描述了从Lucene/Solr文档生成特征向量，尽管我认为这比您已经做的没有多大进步。

我也邮寄了Lucene用户列表，他们建议使用相同的方法处理术语向量以获得我需要的向量。谢谢你抽出时间。