Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/cmake/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 文献的体裁分类_Machine Learning_Nlp_Classification_Text Classification_Categorization - Fatal编程技术网

Machine learning 文献的体裁分类

Machine learning 文献的体裁分类,machine-learning,nlp,classification,text-classification,categorization,Machine Learning,Nlp,Classification,Text Classification,Categorization,我在找图书馆,不管是机器学习还是其他什么,这都没关系,它可以帮助我对我拥有的内容进行分类。基本上我的内容都是文章,我想知道哪些是政治或体育之类的,所以我对它们进行了分类 我正在尝试openNLP,但无法让它按我需要的方式工作,还有什么可以解决我的需要吗 我想我需要使用自然语言处理NLP进行某种机器学习,但目前我找不到适合我工作的方法。这是一个幼稚的实现,但你可以进一步即兴发挥。要将段落分类到一个类别下,首先尝试提取特定主题的训练数据中的唯一单词 例如:使用NLTK从讨论体育的段落集合中提取独特的

我在找图书馆,不管是机器学习还是其他什么,这都没关系,它可以帮助我对我拥有的内容进行分类。基本上我的内容都是文章,我想知道哪些是政治或体育之类的,所以我对它们进行了分类

我正在尝试openNLP,但无法让它按我需要的方式工作,还有什么可以解决我的需要吗

我想我需要使用自然语言处理NLP进行某种机器学习,但目前我找不到适合我工作的方法。

这是一个幼稚的实现,但你可以进一步即兴发挥。要将段落分类到一个类别下,首先尝试提取特定主题的训练数据中的唯一单词

例如:使用NLTK从讨论体育的段落集合中提取独特的单词,并将其存储在一个集合中。然后对其他主题进行类似操作,并将它们存储在集合中。现在减去集合中的常用词,这样您就可以找到可能代表特定主题的特定独特词

所以,现在当你输入一个段落时,它应该给你一个热输出。 现在将列表中的所有独特单词组合起来。

现在,当你分析一个段落时,如果你找到了这些单词,就把它们作为1

比如,在分析你的第一段之后,你可能会得到如下结果:

[0,0,1,0,1,….1,0,0]->在此表示找到位置3中的唯一单词等。

因此,您的训练数据将作为输入,并作为热编码输出。 也就是说,如果您有三个类别,并且您的第一段属于第一个主题,那么结果将类似于[1,0,0]

收集大量输入和结果进行培训,然后使用新输入进行测试。你会得到更高的概率在这个主题上它适合

您可以使用基本神经网络和正常的softmax损失函数对其进行训练。这可能只需要一个小时


最好。

我建议两种方法,这取决于您的数据:

首先,如果您已经知道文本数据中有多少类,例如体育、政治和科学。在这种情况下,您可以使用监督学习算法(SVM、MLP、LR..)

在第二种情况下,如果您不知道将在数据中遇到多少类,最好使用无监督学习算法LDA或LSI,这将对具有类似主题的文档进行聚类,您只需手动检查每个聚类中的一些文档并为其指定标签

对于数据表示,您可以使用或countvectorizer创建BoW(单词包)向量,以提供给您的学习算法


我只想补充一点,如果你的词汇量很大,最好(内存效率和速度)使用scipy稀疏向量。

你能提供任何关键词吗,这样我们就可以使机器学习成为一种有监督的学习。或者你想让自己按无监督或半监督分类?你的选择是什么。第一个还是第二个?有人监督对我来说很好,所以我可以帮助修改和工作人员,但任何更好的工作都会帮助我开始。你有多少培训语料库的文档?