Machine learning 基于文本检测特征的最佳方法
我有一个“简单”的问题:我有文本部分,基于此,应该决定是“a类”还是“B类” 作为训练数据,我对文本进行了分类,算法可以对其进行训练 文本部分如下所示: A类 或 或 B类 或 (本节文本最多包含20个单词,内容丰富) 如果我用这个示例数据训练了算法,它应该决定文本是否包含“蓝色”它是类别A,如果它包含“红色”它是类别B等等 如果一个单词的频率可能更高,那么算法应该基于训练数据进行学习Machine learning 基于文本检测特征的最佳方法,machine-learning,classification,text-mining,Machine Learning,Classification,Text Mining,我有一个“简单”的问题:我有文本部分,基于此,应该决定是“a类”还是“B类” 作为训练数据,我对文本进行了分类,算法可以对其进行训练 文本部分如下所示: A类 或 或 B类 或 (本节文本最多包含20个单词,内容丰富) 如果我用这个示例数据训练了算法,它应该决定文本是否包含“蓝色”它是类别A,如果它包含“红色”它是类别B等等 如果一个单词的频率可能更高,那么算法应该基于训练数据进行学习 做这件事最好的方法是什么?我应该使用哪种工具?我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征
做这件事最好的方法是什么?我应该使用哪种工具?我认为第一次尝试应该是因为你有一个二进制分类问题。一旦定义了特征向量(例如,一组已确定单词的频率),就可以优化用于二进制分类的代价函数参数(例如,) 您可能需要的一个步骤是消除 我真的很推荐这个 您可以尝试,计算文档中每个特征词(红色、蓝色)的正概率(A)和负概率(B)。假设每个类别中有相等数量的项目,则获得两个指定单词(红色、蓝色)中的每一个都属于指定类别(a、B)的句子的概率。然后得到一个组合概率
由于特征不是独立的,所以这不是一个真实的概率,但它的工作原理与贝叶斯分类器非常相似。Fisher方法返回的值是一个更好的概率估计值,在报告结果或决定截止值时非常有用。到目前为止,您的特征向量中包含了哪些特征?你用什么分类器?
a blue car drives
the blue bus stops
the blue bike drives
a red bike drives
the red bus stops