Machine learning 帮助组织我针对此机器学习问题的数据

Machine learning 帮助组织我针对此机器学习问题的数据,machine-learning,classification,svm,libsvm,Machine Learning,Classification,Svm,Libsvm,我想把推特分类到一组给定的类别中,比如{‘体育’、‘娱乐’、‘爱情’},等等 我的想法是采用最常用单词的词频来帮助我解决这个问题。例如,“爱”一词最常出现在爱情类中,但它也以“我爱这个游戏”和“我爱这个电影”的形式出现在体育和娱乐中 为了解决这个问题,我设想了一个三轴图,其中x值是我推文中使用的所有单词,y值是类别,z值是关于单词和类别的术语频率(或某种类型的分数)。然后我会将tweet分解到图表上,然后将每个类别中的z值相加。总z值最高的类别很可能是正确的类别。我知道这令人困惑,所以让我举个例

我想把推特分类到一组给定的类别中,比如{‘体育’、‘娱乐’、‘爱情’},等等

我的想法是采用最常用单词的词频来帮助我解决这个问题。例如,“爱”一词最常出现在爱情类中,但它也以“我爱这个游戏”和“我爱这个电影”的形式出现在体育和娱乐中

为了解决这个问题,我设想了一个三轴图,其中x值是我推文中使用的所有单词,y值是类别,z值是关于单词和类别的术语频率(或某种类型的分数)。然后我会将tweet分解到图表上,然后将每个类别中的z值相加。总z值最高的类别很可能是正确的类别。我知道这令人困惑,所以让我举个例子:

“看”这个词在体育和娱乐中经常出现(“我在看比赛”和“我在看我最喜欢的节目”)……因此,我至少把它缩小到这两个类别。但“游戏”这个词并不经常出现在娱乐节目中,表演也不经常出现在体育节目中。“观看”+“比赛”的Z值在体育类中最高,“观看”+“表演”在娱乐类中最高

既然你了解了我的想法是如何运作的,我需要帮助组织这些数据,以便机器学习算法能够在我给它一个单词或一组单词时预测类别。我已经读了很多关于支持向量机的书,我认为它们是一个不错的选择。我试过libsvm,但似乎找不到一个好的输入集。此外,libsvm不支持非数值,这增加了复杂性

有什么想法吗?我甚至需要一个图书馆,还是应该自己编写决策代码


谢谢大家,我知道这很长,对不起。

您正在尝试将文本分类为一组类别。这样做。事实上,它在统计上与你的想法类似。它假设文本中的单词频率是一个类别的独立指标,并基于此假设给出每个类别的概率。在实践中效果良好;我相信它有一个实现。

你必须根据文档的内容(文字特征)对文档进行分类(这里推文就是你的文档),并将它们归入类别(体育、环境、爱情等)

您可以使用或Fisher分类器(我更喜欢Fisher)对文档进行分类。您可以在python库中找到这两种方法的实现

使用词干分析、下套管、停止字(the、is、at等)删除和其他预处理技术来提高效率


您只需阅读《编程集体智能:构建智能Web 2.0应用程序》一书的第6章(文档过滤)。它很好地解释了分类器、示例和python实现。

阅读分类和集群。这是一个已解决的问题,而您选择特定单词的机制并不是成功解决方案的一部分。谢谢,我理解这是一个分类问题,但我不同意您后一种说法。基于频率的特征选择对于大量的特征是可行的。我强烈建议在你开始重新发明文档分类轮子之前做一些常规的事情。试试像这样的东西