Machine learning 基于文本检测特征的最佳方法_Machine Learning_Classification_Text Mining

Machine learning 基于文本检测特征的最佳方法

machine-learning

Machine learning 基于文本检测特征的最佳方法,machine-learning,classification,text-mining,Machine Learning,Classification,Text Mining,我有一个“简单”的问题：我有文本部分，基于此，应该决定是“a类”还是“B类” 作为训练数据，我对文本进行了分类，算法可以对其进行训练文本部分如下所示： A类或或 B类或（本节文本最多包含20个单词，内容丰富）如果我用这个示例数据训练了算法，它应该决定文本是否包含“蓝色”它是类别A，如果它包含“红色”它是类别B等等如果一个单词的频率可能更高，那么算法应该基于训练数据进行学习做这件事最好的方法是什么？我应该使用哪种工具？我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征

我有一个“简单”的问题：我有文本部分，基于此，应该决定是“a类”还是“B类”

作为训练数据，我对文本进行了分类，算法可以对其进行训练

文本部分如下所示：

A类或

或

B类或

（本节文本最多包含20个单词，内容丰富）

如果我用这个示例数据训练了算法，它应该决定文本是否包含“蓝色”它是类别A，如果它包含“红色”它是类别B等等

如果一个单词的频率可能更高，那么算法应该基于训练数据进行学习

做这件事最好的方法是什么？我应该使用哪种工具？

我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征向量（例如，一组已确定单词的频率），就可以优化用于二进制分类的代价函数参数（例如，）

您可能需要的一个步骤是消除

我真的很推荐这个

您可以尝试，计算文档中每个特征词（红色、蓝色）的正概率（A）和负概率（B）。假设每个类别中有相等数量的项目，则获得两个指定单词（红色、蓝色）中的每一个都属于指定类别（a、B）的句子的概率。然后得到一个组合概率

由于特征不是独立的，所以这不是一个真实的概率，但它的工作原理与贝叶斯分类器非常相似。Fisher方法返回的值是一个更好的概率估计值，在报告结果或决定截止值时非常有用。

到目前为止，您的特征向量中包含了哪些特征？你用什么分类器？

a blue car drives

the blue bus stops

the blue bike drives

 a red bike drives

 the red bus stops