Text 是否可以用作者信息补充朴素贝叶斯文本分类算法?

Text 是否可以用作者信息补充朴素贝叶斯文本分类算法?,text,machine-learning,nlp,classification,bayesian,Text,Machine Learning,Nlp,Classification,Bayesian,我正在做一个文本分类项目,我试图将话题分类分配给国会记录中的演讲 使用国会法案项目的主题代码,我将提到某一特定法案的演讲标记为属于该法案的主题。我用这个作为模型的训练集 我有一个简单朴素的贝叶斯分类器工作得很好,但我一直觉得我可以通过合并发表演讲的国会议员的信息来提高算法的准确性。例如,某些议员比其他议员更可能谈论外交政策 一种可能性是替换NB分类器中的先验,通常定义为训练集中具有给定分类的文档与演讲者观察到的先验演讲的比例 这值得追求吗?是否存在遵循这种逻辑的现有方法?我对作者的主题模型有点熟

我正在做一个文本分类项目,我试图将话题分类分配给国会记录中的演讲

使用国会法案项目的主题代码,我将提到某一特定法案的演讲标记为属于该法案的主题。我用这个作为模型的训练集

我有一个简单朴素的贝叶斯分类器工作得很好,但我一直觉得我可以通过合并发表演讲的国会议员的信息来提高算法的准确性。例如,某些议员比其他议员更可能谈论外交政策

一种可能性是替换NB分类器中的先验,通常定义为训练集中具有给定分类的文档与演讲者观察到的先验演讲的比例


这值得追求吗?是否存在遵循这种逻辑的现有方法?我对作者的主题模型有点熟悉,这些模型来自潜在的Dirichlet分配模型,但我喜欢NB模型的简单性。

无需修改任何内容,只需将此信息添加到朴素贝叶斯中,它就可以正常工作

正如之前在评论中提到的——不要改变任何先验——先验概率是Pclass,这与实际特征无关

只需在计算中添加与作者身份相对应的另一个功能,例如,作者:作者并像往常一样训练朴素贝叶斯,即计算Pclass |作者:每个类和作者的作者,并在以后的分类过程中使用它。如果您当前的表示是一袋单词,添加一个形式为author:author的人造词就足够了


另一个选择是为每个作者训练独立的分类器,这将捕获特定于个人的讲话类型,例如-一个只在谈论自然时使用大量单词环境,而另一个只喜欢在每个演讲中添加这个单词哦,在我们的本地环境中。。。。独立的NBs将捕获此类现象。

从使用机器学习解决问题的角度来看,您当然可以在特征向量中添加“作者”作为另一个特征。此外,您还写道您希望“替换先前的”,这意味着您自己正在实现NB算法;你为什么要这么做?只需使用现成的包装。无论如何,先验概率PrClass只适用于类本身,而不适用于特征。如果您将“作者”添加为一项功能,您应该修改似然乘积计算,而不是先前的。感谢您的反馈-我对使用现成软件包的一个担忧与我的培训集的构造有关。因为我依赖于对法案的提及,所以我担心提及某一法案的发言比例,即发言总数的10%,并不能代表所有发言。例如,如果某个国会的演讲中提到的国防法案按比例增加,但立法者在没有相关法案的情况下就堕胎问题发表了大量发言,这难道不会有可能导致分类错误吗?培训中的阶级不平衡肯定会影响先前的可能性,但是你应该删减训练集而不是改变算法。要修剪训练集,请参见:注意,朴素贝叶斯中的先验几乎是不相关的,因为似然项完全占主导地位:你最后一句话中的NV是什么?显然,输入错误应该是NB朴素贝叶斯你的符号pclass | author:author是误导性的,它取决于整个特征向量,其中包括作者以及其他许多东西。也就是说,pclass | author:author,fv.No,不是。朴素贝叶斯没有存储,因为它假设特征与概率无关,以Pclass | word0,word1,。。但是相反,Pclass | word0,Pclass | word1。。。因此,添加作者作为另一个词是正确表达的。@BenAllison-请详细说明