Machine learning 多朴素贝叶斯分类器

Machine learning 多朴素贝叶斯分类器,machine-learning,theory,naivebayes,Machine Learning,Theory,Naivebayes,我正在考虑为一个评论站点实现一个朴素的“是”分类器,以便识别垃圾邮件评论并提出几个问题 我突然想到有多种类型的垃圾邮件,比如与他们正在审查的内容无关的赤裸裸的营销垃圾,而不是欺骗性的审查。为不同的目的实现多个分类器是否明智,这样一个分类器可以更好地检测一般垃圾邮件,而另一个分类器可以学习欺骗性评论 在一个类似的例子中,有多个类别的项目正在被审查,所以对于“欺骗性审查”分类器,最好只有一个分类器尝试从所有审查中学习?或者每个类别都有一个分类器更好,这样它就可以了解这些类别中的细微差别了 我知道这些

我正在考虑为一个评论站点实现一个朴素的“是”分类器,以便识别垃圾邮件评论并提出几个问题

  • 我突然想到有多种类型的垃圾邮件,比如与他们正在审查的内容无关的赤裸裸的营销垃圾,而不是欺骗性的审查。为不同的目的实现多个分类器是否明智,这样一个分类器可以更好地检测一般垃圾邮件,而另一个分类器可以学习欺骗性评论

  • 在一个类似的例子中,有多个类别的项目正在被审查,所以对于“欺骗性审查”分类器,最好只有一个分类器尝试从所有审查中学习?或者每个类别都有一个分类器更好,这样它就可以了解这些类别中的细微差别了


  • 我知道这些并不是傻瓜式的,只是将潜在的评论标记为手动检查,但我不清楚最佳设置。

    只要您使用任何足够复杂的算法,您就应该能够用任何一种方法区分“好”和“坏”数据。如果您使用一个模型来完成这一切,那么您只需要增加模型的大小,这样综合模型就可以(最坏的情况下)构建两个决策的独立路径,“垃圾邮件”和“欺骗”

    如果你在三个不同的分类上训练它:好的、垃圾邮件和欺骗;那么不管怎样你都做得很好。但是,请注意,单独训练时,模型尺寸更小,训练时间更短,因为不准确的猜测会更少

    另一方面,使用两个模型供以后实际使用可能会降低检测速度,因为通过第一个模型的每个输出都必须通过第二个模型。对于大多数应用程序,此时间不是一个重要因素

    最重要的是,我将从每个类的一个单独模型开始:实现和培训中的任何问题都将更快地找到,更容易隔离