Machine learning 训练朴素贝叶斯分类器

Machine learning 训练朴素贝叶斯分类器,machine-learning,classification,naivebayes,Machine Learning,Classification,Naivebayes,我正在开发一个朴素贝叶斯分类器,使用简单的词袋概念。我的问题是在NaiveBayes或任何其他机器学习senario“训练”中,分类器是一个重要的问题。但是当我已经有了一大堆不同类别的单词时,如何训练朴素贝叶斯分类器呢 如何训练朴素贝叶斯分类器,当我已经有了一袋不同类别的单词 一般来说,您要做的是: 将你的单词袋分成两个随机子集,调用一个training另一个test 在训练子集上训练分类器 通过对测试子集运行分类器来验证分类器的准确性 “训练”分类器是一件重要的事情 事实上,这就是你的分类器如

我正在开发一个朴素贝叶斯分类器,使用简单的词袋概念。我的问题是在NaiveBayes或任何其他机器学习senario“训练”中,分类器是一个重要的问题。但是当我已经有了一大堆不同类别的单词时,如何训练朴素贝叶斯分类器呢

如何训练朴素贝叶斯分类器,当我已经有了一袋不同类别的单词

一般来说,您要做的是:

  • 将你的单词袋分成两个随机子集,调用一个
    training
    另一个
    test
  • 训练
    子集上训练分类器
  • 通过对
    测试
    子集运行分类器来验证分类器的准确性
  • “训练”分类器是一件重要的事情

    事实上,这就是你的分类器如何从不同的类中分离单词

    很好地解释了朴素贝叶斯分类器的工作原理,并以文本分类为例。并给出了详细的理论描述和一些具体实例


    简言之,您计算每个类中每个单词类型的出现次数,然后根据文档数量进行规范化,以获得给定类p(w | c)的单词概率。然后使用贝叶斯规则获得给定文档p(c | doc)=p(c)*p(doc | c)的每个类的概率,其中给定类的文档的概率是给定类p(doc | c)=∏(w in doc)p(w | c)的其单词概率的乘积。在类之间进行规范化之前,这些概率非常小,因此您可能需要取对数并求和,以避免出现下溢错误。

    看看@TimBiegeleisen我已经阅读了该教程。但问题仍然存在。假设我有两个正数和负数。现在,在我的正类训练数据集中,我有一些正字符串,在负类中,我也有一些负字符串。但在正数字符串中,并非所有的单词都是正数。问题就出现了。当我试着从它们身上提取单词并把它们放在一个由单词组成的积极的袋子里时,也会添加一些消极的单词,这会妨碍后面的分类。@Pritam是单词的积极或消极的倾斜,取决于上下文?如果是这样,您需要为每个样本(单词)在
    X
    向量中添加上下文作为特征。否则,,分类器如何区分?先生,在分析字符串或文档时,是否有任何拒绝标准,我们可以拒绝使用朴素贝叶斯,并使用svm或最大熵分类器代替朴素贝叶斯?先生,是否有任何拒绝标准,我们可以拒绝朴素贝叶斯,并使用svm或最大熵分类器代替朴素贝叶斯分析字符串还是文档?