Text 文本分类/机器学习：我是否也需要一个'；默认值'；分类？_Text_Machine Learning_Classification_Naivebayes

Text 文本分类/机器学习：我是否也需要一个'；默认值'；分类？

text machine-learning

Text 文本分类/机器学习：我是否也需要一个'；默认值'；分类？,text,machine-learning,classification,naivebayes,Text,Machine Learning,Classification,Naivebayes,对于我的任务，我需要制作一个机器学习程序，该程序执行以下操作：作为输入，程序将获得一个项目的建筑平面图（以PDF格式的文本编写），主要是桥梁和水闸。机器学习程序以PDF中的每个句子为样本（该句子中的单词是特征），需要将每个样本/句子分为以下类别之一：硬件相关和软件相关。（我将朴素贝叶斯算法与TF-DIF结合使用。）然而，正如你所能想象的，也有很多无关的句子，它们既不与硬件相关，也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”，这样我总共有三个类别？还是最好只保留这两个类别，并根据

对于我的任务，我需要制作一个机器学习程序，该程序执行以下操作：

作为输入，程序将获得一个项目的建筑平面图（以PDF格式的文本编写），主要是桥梁和水闸。机器学习程序以PDF中的每个句子为样本（该句子中的单词是特征），需要将每个样本/句子分为以下类别之一：硬件相关和软件相关。（我将朴素贝叶斯算法与TF-DIF结合使用。）

然而，正如你所能想象的，也有很多无关的句子，它们既不与硬件相关，也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”，这样我总共有三个类别？还是最好只保留这两个类别，并根据它们的概率对它们进行分类？例如一个句子被归类为0.6的硬件，然后我忽略它。但是，如果结果是0.8或更高，那么我将其归类为硬件。

每种方法的工作原理取决于您将使用多少训练数据。目前，我正在从事一个大型项目，本质上，这是一个类似的文本任务，逐句逐句，尽管我使用了7个类别。我使用了7个标签，所以没有“不相关的”桶。我在展示研究结果时使用了thresh hold，因此任何高于0.75的确定性评级，都可以。使用“不相关”存储桶的问题在于，您必须对其进行“不相关”的训练，而“不相关”可能是大量不同的数据集。因此，选择概率选项。

你需要在训练集中使用不相关的句子，我将用一个例子解释原因：

如果您有三类分类问题，您可以获得以下输出： 95% 硬件4% 软件1%

成为硬件的可能性是成为软件的可能性的4倍。但你显然会选择不相关的

如果使用两类数据集，将获得以下输出：硬件80% 软件20%

作为硬件的可能性是作为软件的可能性的4倍，但是这两个百分比的总和必须是100%，因为分类器认为这两个可能性是整个宇宙

您有两种不同的选择：

1-3类分类问题（硬件、软件、无关）

2-具有2类分类问题的两个分类器：

分类器1->正类硬件，负类：软件+无关

分类器2->正类软件，负类：硬件+无关

谢谢您的解释！我会再做一个分类，涵盖不相关的句子。还有一个问题。当我对句子进行分类时，有时我真的怀疑它应该被归类为硬件还是无关，但我通常会稍微倾向于无关。我应该在训练集中学习这些句子吗？或者我不应该在训练集中使用这些有问题的句子吗？你很好。其基本思想是，数据集必须包含相同比例的HW、SW和不相关的句子，以获得良好的概率。对于那些你不确定类别的句子，有一些算法可以处理不确定性，但它们更复杂。在我看来，如果你不介意将来对这类句子进行分类，请将它们从训练集中删除，如果你想将它们分类为不相关，请使用“不相关”标签将它们包括在训练集中。谢谢！我想我不会把这些句子放在训练集中。我看到其他人说，你不需要为每个类别获取相同数量的训练样本。他们说，如果价差与真实数据相同，就可以了。我很高兴听到这一消息，因为软件类别只占少数（约70%不相关，25%硬件和5%软件）。那么，我真的需要为每个类别获取相同数量的样本吗？此外，硬件/软件召回比精度更重要。因为我有更多的句子是不相关的，我真的希望硬件/软件的句子被正确预测。如果一些不相关的句子被归类为HW/SW，这其实并不重要。