Machine learning 基于文本检测特征的最佳方法

Machine learning 基于文本检测特征的最佳方法,machine-learning,classification,text-mining,Machine Learning,Classification,Text Mining,我有一个“简单”的问题:我有文本部分,基于此,应该决定是“a类”还是“B类” 作为训练数据,我对文本进行了分类,算法可以对其进行训练 文本部分如下所示: A类 或 或 B类 或 (本节文本最多包含20个单词,内容丰富) 如果我用这个示例数据训练了算法,它应该决定文本是否包含“蓝色”它是类别A,如果它包含“红色”它是类别B等等 如果一个单词的频率可能更高,那么算法应该基于训练数据进行学习 做这件事最好的方法是什么?我应该使用哪种工具?我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征

我有一个“简单”的问题:我有文本部分,基于此,应该决定是“a类”还是“B类”

作为训练数据,我对文本进行了分类,算法可以对其进行训练

文本部分如下所示:

A类 或

B类 或

(本节文本最多包含20个单词,内容丰富)

如果我用这个示例数据训练了算法,它应该决定文本是否包含“蓝色”它是类别A,如果它包含“红色”它是类别B等等

如果一个单词的频率可能更高,那么算法应该基于训练数据进行学习


做这件事最好的方法是什么?我应该使用哪种工具?

我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征向量(例如,一组已确定单词的频率),就可以优化用于二进制分类的代价函数参数(例如,)

您可能需要的一个步骤是消除

我真的很推荐这个

您可以尝试,计算文档中每个特征词(红色、蓝色)的正概率(A)和负概率(B)。假设每个类别中有相等数量的项目,则获得两个指定单词(红色、蓝色)中的每一个都属于指定类别(a、B)的句子的概率。然后得到一个组合概率


由于特征不是独立的,所以这不是一个真实的概率,但它的工作原理与贝叶斯分类器非常相似。Fisher方法返回的值是一个更好的概率估计值,在报告结果或决定截止值时非常有用。

到目前为止,您的特征向量中包含了哪些特征?你用什么分类器?
a blue car drives
the blue bus stops
the blue bike drives
 a red bike drives
 the red bus stops