Nlp 多项式朴素贝叶斯模型中文档的概率

Nlp 多项式朴素贝叶斯模型中文档的概率,nlp,Nlp,遗憾的是,我不能完全理解多项式朴素贝叶斯模型中文档概率公式中片段的含义。 它是关于纸张的,公式#5: 有问题的片段是p(| d|i |)-我不能完全理解,这个概率意味着什么?它仅仅是第i个文档的概率吗?如果是,为什么它包含|…操作?|d|u i是第i个文档中的字数。P(| d|i |)术语是生成一个文档的概率,该文档的单词正好是| d|i |。您真的很困惑。NaiveBayes与你在我的回复中编辑的LDA公式无关。真的吗?好的,那么您建议如何计算生成一个包含N个单词的文档的概率呢?好吧,对于本

遗憾的是,我不能完全理解多项式朴素贝叶斯模型中文档概率公式中片段的含义。 它是关于纸张的,公式#5:


有问题的片段是
p(| d|i |)
-我不能完全理解,这个概率意味着什么?它仅仅是第i个文档的概率吗?如果是,为什么它包含
|…
操作?

|d|u i
是第i个文档中的字数。
P(| d|i |)
术语是生成一个文档的概率,该文档的单词正好是
| d|i |

您真的很困惑。NaiveBayes与你在我的回复中编辑的LDA公式无关。真的吗?好的,那么您建议如何计算生成一个包含N个单词的文档的概率呢?好吧,对于本文中描述的文档分类任务,文档长度与给定文档的类分布无关。也就是说,较长的文档不会使您的选择偏向或偏离任何特定类别。如果您出于其他原因(或者因为您认为文档长度有助于完成任务)希望对文档长度建模,本文建议使用帕累托分布。有几件事值得注意。该公式独立处理长度和类别,因此该项为常数。您可以将它们建模为依赖项(有一个术语p(d|i | c|j)),这可能对某些任务有用。不确定帕累托分布的好处是什么,但是,与泊松分布(如果你想要离散的东西)或对数正态分布相比,两者都更容易处理。最后,请注意,由于多项式产生极端概率(小数到大数=非常小的数),因此对长度建模可能对决策没有影响。