Text 文本分类/机器学习:我是否也需要一个';默认值';分类?

Text 文本分类/机器学习:我是否也需要一个';默认值';分类?,text,machine-learning,classification,naivebayes,Text,Machine Learning,Classification,Naivebayes,对于我的任务,我需要制作一个机器学习程序,该程序执行以下操作: 作为输入,程序将获得一个项目的建筑平面图(以PDF格式的文本编写),主要是桥梁和水闸。机器学习程序以PDF中的每个句子为样本(该句子中的单词是特征),需要将每个样本/句子分为以下类别之一:硬件相关和软件相关。(我将朴素贝叶斯算法与TF-DIF结合使用。) 然而,正如你所能想象的,也有很多无关的句子,它们既不与硬件相关,也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”,这样我总共有三个类别?还是最好只保留这两个类别,并根据

对于我的任务,我需要制作一个机器学习程序,该程序执行以下操作:

作为输入,程序将获得一个项目的建筑平面图(以PDF格式的文本编写),主要是桥梁和水闸。机器学习程序以PDF中的每个句子为样本(该句子中的单词是特征),需要将每个样本/句子分为以下类别之一:硬件相关和软件相关。(我将朴素贝叶斯算法与TF-DIF结合使用。)


然而,正如你所能想象的,也有很多无关的句子,它们既不与硬件相关,也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”,这样我总共有三个类别?还是最好只保留这两个类别,并根据它们的概率对它们进行分类?例如一个句子被归类为0.6的硬件,然后我忽略它。但是,如果结果是0.8或更高,那么我将其归类为硬件。

每种方法的工作原理取决于您将使用多少训练数据。目前,我正在从事一个大型项目,本质上,这是一个类似的文本任务,逐句逐句,尽管我使用了7个类别。我使用了7个标签,所以没有“不相关的”桶。我在展示研究结果时使用了thresh hold,因此任何高于0.75的确定性评级,都可以。使用“不相关”存储桶的问题在于,您必须对其进行“不相关”的训练,而“不相关”可能是大量不同的数据集。因此,选择概率选项。

你需要在训练集中使用不相关的句子,我将用一个例子解释原因:

如果您有三类分类问题,您可以获得以下输出: 95% 硬件4% 软件1%

成为硬件的可能性是成为软件的可能性的4倍。但你显然会选择不相关的

如果使用两类数据集,将获得以下输出: 硬件80% 软件20%

作为硬件的可能性是作为软件的可能性的4倍,但是这两个百分比的总和必须是100%,因为分类器认为这两个可能性是整个宇宙

您有两种不同的选择:

1-3类分类问题(硬件、软件、无关)

2-具有2类分类问题的两个分类器:

分类器1->正类硬件,负类:软件+无关


分类器2->正类软件,负类:硬件+无关

谢谢您的解释!我会再做一个分类,涵盖不相关的句子。还有一个问题。当我对句子进行分类时,有时我真的怀疑它应该被归类为硬件还是无关,但我通常会稍微倾向于无关。我应该在训练集中学习这些句子吗?或者我不应该在训练集中使用这些有问题的句子吗?你很好。其基本思想是,数据集必须包含相同比例的HW、SW和不相关的句子,以获得良好的概率。对于那些你不确定类别的句子,有一些算法可以处理不确定性,但它们更复杂。在我看来,如果你不介意将来对这类句子进行分类,请将它们从训练集中删除,如果你想将它们分类为不相关,请使用“不相关”标签将它们包括在训练集中。谢谢!我想我不会把这些句子放在训练集中。我看到其他人说,你不需要为每个类别获取相同数量的训练样本。他们说,如果价差与真实数据相同,就可以了。我很高兴听到这一消息,因为软件类别只占少数(约70%不相关,25%硬件和5%软件)。那么,我真的需要为每个类别获取相同数量的样本吗?此外,硬件/软件召回比精度更重要。因为我有更多的句子是不相关的,我真的希望硬件/软件的句子被正确预测。如果一些不相关的句子被归类为HW/SW,这其实并不重要。