Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Math 理解朴素贝叶斯的概率计算_Math_Statistics_Document Classification - Fatal编程技术网

Math 理解朴素贝叶斯的概率计算

Math 理解朴素贝叶斯的概率计算,math,statistics,document-classification,Math,Statistics,Document Classification,使用naive bayes文本分类技术,您通常会计算训练数据中的单词数,并计算p(标签|文档),其中文档是一串单词 对于文本分类,为什么我们不能直接计算p(label | word1、word2等)来预测标签?(即,为什么我们需要使用贝叶斯定理) 根据文件,我们有完整的数据。。。似乎应该能够直接计算p(标签和w1和w2)/p(w1和w2) 我意识到训练集不是基本事实。用贝叶斯定理计算它能解决这个问题吗?如果是,怎么做?你能说明数学是如何工作的吗?贝叶斯使用训练集中的先验信息和数据来估计后验概率

使用naive bayes文本分类技术,您通常会计算训练数据中的单词数,并计算p(标签|文档),其中文档是一串单词

对于文本分类,为什么我们不能直接计算p(label | word1、word2等)来预测标签?(即,为什么我们需要使用贝叶斯定理)

根据文件,我们有完整的数据。。。似乎应该能够直接计算p(标签和w1和w2)/p(w1和w2)


我意识到训练集不是基本事实。用贝叶斯定理计算它能解决这个问题吗?如果是,怎么做?你能说明数学是如何工作的吗?

贝叶斯使用训练集中的先验信息和数据来估计后验概率

我认为“我们有充分的数据”将是一个常客的观点

Bayes是对频繁方法的一种改进,原因有很多,但其中一个原因是它允许您使用过去的信息来改进后验

我建议你读书。这是一本关于一个非常重要的话题的好书。Bayes赢得了这场战争——最好彻底了解它。

Naive Bayes这个名字有点误导人,因为通过Bayes定理计算值并没有那么显著。正如你所指出的,贝叶斯定理是从条件概率的标准定义中推导出来的,因此我们可以证明通过贝叶斯定理给出的答案与通常计算的答案相同

洞察(或错误的假设,取决于您的观点)是,给定文档的标签,词频通常是独立的。由于这个
P(w_1,…,w_n | label)
很容易计算:
P(w_1,…,w_n | label)=P(w_1 | label)*……*P(带标签)

但是当然我们不关心
p(w|u 1,…,w|n | label)
,我们想要
p(label | w|u 1,…,w|n)
。所以我们需要使用贝叶斯定理,因此得名

通过这样做,我们可以嵌入关于单词独立性的知识,从而做出更好的预测。如果我们只是进行原始计算,就没有办法编码我们关于独立性的知识


(这在一般的贝叶斯网络中是正确的,而不仅仅是朴素的贝叶斯-好处是你可以对你先前关于变量之间关系的知识进行编码。)

经过研究,询问了一些人,并思考了一下。您不计算的原因是:

p(标签| W1=1,W2=2等)

这是因为它在计算上很困难,因为你需要保留一个大字、三叉等的索引,即使这样,你也需要一个聪明的方法来处理索引中出现零次的单词

使用Bayes是一种很好的解决问题的方法,但是您确实需要做出条件独立性假设

您还可以将公式转换为另一种形式,其中单词仍然位于右侧。以下是从使用bayes公式的分子开始的数学:

p(w1|c)*p(w2|c).*p(c)

这可以分解为

p(c | w1)*p(w1)/p(c)*p(c | w2)*p(w2)/p(c)。。。p(c | Wn)*p(Wn)/p(c)*p(c)

这简化为


p(c | w1)。。。p(c | Wn)*p(c)^-(n-1)*p(w1)…p(Wn)

你能说明用贝叶斯定理计算概率的数学是如何给出更好的结果的吗?有没有一个教程能更好地解释这一点?贝叶斯是数学中的科学方法。当你先前的信息有问题时,你可以得到不同的后验结果。当你得到更多的信息,先验值收敛到一个商定的值时,你的后验值就会变得更可靠。你不需要数学来告诉你更好的过去信息会给你更好的未来结果。阅读我给出的引文。我对它为什么被称为“贝叶斯”的理解是,它使用贝叶斯定理——与是否首选贝叶斯方法或频繁使用方法无关。你能详细解释一下你的意思吗?duffymo在这里是正确的,“NaiveBayes”是贝叶斯方法的一个特例,在这种方法中,你做出了一个(全面且几乎总是不合理的)假设,即你关心的所有事情都是独立的。事实上,这在现实生活中从来都不是真的,但它可以导致计算上的节省,在实践中效果很好。它确实需要与不太严格的频繁使用方法进行区分,但由于朴素贝叶斯的特殊假设,它类似于频繁使用方法,许多懒惰的实践者没有进行区分。两个真正有用的链接可以更好地理解这一点:和。注意:我从第一个方便的搜索源抓取了这些链接。我不是在试图支持链接的网站或任何东西。