Python 基于SVM分类器的文本挖掘
我想使用python nltk将SVM分类应用于文本挖掘目的,并获得精度、召回精度和不同的测量信息。为此,我对数据集进行预处理,并将数据集拆分为两个文本文件,即-pos_file.txt(正标签)和neg_file.txt(负标签)。现在我想用随机抽样的SVM分类器,70%用于训练数据,30%用于测试。我看到了一些scikit学习的文档,但不确定如何应用它 pos_file.txt和neg_file.txt都可以被视为一堆单词。 有用的链接-Python 基于SVM分类器的文本挖掘,python,svm,text-mining,Python,Svm,Text Mining,我想使用python nltk将SVM分类应用于文本挖掘目的,并获得精度、召回精度和不同的测量信息。为此,我对数据集进行预处理,并将数据集拆分为两个文本文件,即-pos_file.txt(正标签)和neg_file.txt(负标签)。现在我想用随机抽样的SVM分类器,70%用于训练数据,30%用于测试。我看到了一些scikit学习的文档,但不确定如何应用它 pos_file.txt和neg_file.txt都可以被视为一堆单词。 有用的链接- 示例文件:pos_file.txt stac
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
示例文件:neg_file.txt
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
此外,将同样的方法应用于单图、二元图和三元图也很有趣。期待您的建议或示例代码 下面是将支持向量机应用于文本分类的一个非常粗略的指南:
你应该描述具体的问题,而不仅仅是索取代码(包含在你提供的链接中)@lejlot我想知道我需要遵循的步骤。这些步骤与任何ML的步骤相同-你可以将文件转换为矢量表示(因为SVM只对数值数据有效)并按照scikit learn中的SVM说明进行操作,忘记您处理文本的事实。