Machine learning 朴素贝叶斯示例中的特征独立性?
“朴素贝叶斯的另一个系统性问题是 假设特征是独立的,因此, 即使单词是相关的,每个单词也会起作用 独立的证据。因此 强词依赖类的权重 大于具有弱单词依赖项的类。 为了防止具有更多依赖项的类占据主导地位, 我们将分类权重标准化。”()Machine learning 朴素贝叶斯示例中的特征独立性?,machine-learning,nlp,Machine Learning,Nlp,“朴素贝叶斯的另一个系统性问题是 假设特征是独立的,因此, 即使单词是相关的,每个单词也会起作用 独立的证据。因此 强词依赖类的权重 大于具有弱单词依赖项的类。 为了防止具有更多依赖项的类占据主导地位, 我们将分类权重标准化。”() 这到底是什么意思?有什么例子可以更好地解释它吗?朴素贝叶斯分类器会独立地考虑所有特征。基本上,这意味着特征组合的处理方式与每个特征单独出现的方式相同 例如。考虑三个句子 “纽约是一个拥挤的城市。” “新车!我们提供最便宜的新车!” “新酒吧‘猪肉屠宰场’今天在纽约开
这到底是什么意思?有什么例子可以更好地解释它吗?朴素贝叶斯分类器会独立地考虑所有特征。基本上,这意味着特征组合的处理方式与每个特征单独出现的方式相同 例如。考虑三个句子
将被您的朴素贝叶斯分类器分类为属于“洛杉矶”类别。这是因为有两个观察结果支持这一类别(“洛杉矶”,“洛杉矶”),但只有一个支持东京(“东京”)。因此,您将需要某种方法来规范化权重,以适应该问题。朴素贝叶斯分类器考虑所有相互独立的特征。基本上,这意味着特征组合的处理方式与每个特征单独出现的方式相同 例如。考虑三个句子
将被您的朴素贝叶斯分类器分类为属于“洛杉矶”类别。这是因为有两个观察结果支持这一类别(“洛杉矶”,“洛杉矶”),但只有一个支持东京(“东京”)。因此,你需要某种方法来规范你的权重,以适应这个问题。你引用了一整段。到底什么不清楚?你引用了一整段。到底什么是不清楚的?
可能会将标签“纽约”指定给所有这些句子
第二句没有纽约
,是的,但是如果你只在观察到纽约
时才计算纽约
,那么功能纽约
将取决于纽约
。在朴素贝叶斯中,所有特征都被视为彼此有条件地独立。因此P(“New”|)=P(“New”|,“York”)
。因此,您可以将文档分类为关于纽约的
,即使York
一词从未出现在文档中。(类似地,可能有数百个表示纽约的其他单词也不必出现在文档中。)可能会将标签“纽约”分配给所有这些句子,但是如果你只在观察到纽约的情况下才算新的
,