Machine learning 帮助组织我针对此机器学习问题的数据_Machine Learning_Classification_Svm_Libsvm

Machine learning 帮助组织我针对此机器学习问题的数据

machine-learning

Machine learning 帮助组织我针对此机器学习问题的数据,machine-learning,classification,svm,libsvm,Machine Learning,Classification,Svm,Libsvm,我想把推特分类到一组给定的类别中，比如{‘体育’、‘娱乐’、‘爱情’}，等等我的想法是采用最常用单词的词频来帮助我解决这个问题。例如，“爱”一词最常出现在爱情类中，但它也以“我爱这个游戏”和“我爱这个电影”的形式出现在体育和娱乐中为了解决这个问题，我设想了一个三轴图，其中x值是我推文中使用的所有单词，y值是类别，z值是关于单词和类别的术语频率（或某种类型的分数）。然后我会将tweet分解到图表上，然后将每个类别中的z值相加。总z值最高的类别很可能是正确的类别。我知道这令人困惑，所以让我举个例

我想把推特分类到一组给定的类别中，比如{‘体育’、‘娱乐’、‘爱情’}，等等

我的想法是采用最常用单词的词频来帮助我解决这个问题。例如，“爱”一词最常出现在爱情类中，但它也以“我爱这个游戏”和“我爱这个电影”的形式出现在体育和娱乐中

为了解决这个问题，我设想了一个三轴图，其中x值是我推文中使用的所有单词，y值是类别，z值是关于单词和类别的术语频率（或某种类型的分数）。然后我会将tweet分解到图表上，然后将每个类别中的z值相加。总z值最高的类别很可能是正确的类别。我知道这令人困惑，所以让我举个例子：

“看”这个词在体育和娱乐中经常出现（“我在看比赛”和“我在看我最喜欢的节目”）……因此，我至少把它缩小到这两个类别。但“游戏”这个词并不经常出现在娱乐节目中，表演也不经常出现在体育节目中。“观看”+“比赛”的Z值在体育类中最高，“观看”+“表演”在娱乐类中最高

既然你了解了我的想法是如何运作的，我需要帮助组织这些数据，以便机器学习算法能够在我给它一个单词或一组单词时预测类别。我已经读了很多关于支持向量机的书，我认为它们是一个不错的选择。我试过libsvm，但似乎找不到一个好的输入集。此外，libsvm不支持非数值，这增加了复杂性

有什么想法吗？我甚至需要一个图书馆，还是应该自己编写决策代码

谢谢大家，我知道这很长，对不起。

您正在尝试将文本分类为一组类别。这样做。事实上，它在统计上与你的想法类似。它假设文本中的单词频率是一个类别的独立指标，并基于此假设给出每个类别的概率。在实践中效果良好；我相信它有一个实现。

你必须根据文档的内容（文字特征）对文档进行分类（这里推文就是你的文档），并将它们归入类别（体育、环境、爱情等）

您可以使用或Fisher分类器（我更喜欢Fisher）对文档进行分类。您可以在python库中找到这两种方法的实现

使用词干分析、下套管、停止字（the、is、at等）删除和其他预处理技术来提高效率

您只需阅读《编程集体智能：构建智能Web 2.0应用程序》一书的第6章（文档过滤）。它很好地解释了分类器、示例和python实现。

阅读分类和集群。这是一个已解决的问题，而您选择特定单词的机制并不是成功解决方案的一部分。谢谢，我理解这是一个分类问题，但我不同意您后一种说法。基于频率的特征选择对于大量的特征是可行的。我强烈建议在你开始重新发明文档分类轮子之前做一些常规的事情。试试像这样的东西