Python 如何从文本中提取投诉特征,以便从非投诉文本中对投诉进行分类
我有大约6000条来自社交网络(FB、twitter)的评论文本,以及来自一般和地区新闻和杂志等的新闻内容。我浏览了其中的前300条文本,并将这300条文本的内容分别标记为客户投诉或非投诉Python 如何从文本中提取投诉特征,以便从非投诉文本中对投诉进行分类,python,nlp,classification,feature-extraction,sentiment-analysis,Python,Nlp,Classification,Feature Extraction,Sentiment Analysis,我有大约6000条来自社交网络(FB、twitter)的评论文本,以及来自一般和地区新闻和杂志等的新闻内容。我浏览了其中的前300条文本,并将这300条文本的内容分别标记为客户投诉或非投诉 我想知道如何才能准确地提取这些投诉和非投诉文本的特征,而不是简单的文字袋?我的目标是使用SVM或其他分类算法/库(如Liblinear),在当前300个文本的训练集中,最准确地将这些文本的其余部分分类为投诉或非投诉。这个过程类似于情绪分析吗?如果不是,我应该从哪里开始呢?我想你会发现这一大堆话并不是那么幼稚。
我想知道如何才能准确地提取这些投诉和非投诉文本的特征,而不是简单的文字袋?我的目标是使用SVM或其他分类算法/库(如Liblinear),在当前300个文本的训练集中,最准确地将这些文本的其余部分分类为投诉或非投诉。这个过程类似于情绪分析吗?如果不是,我应该从哪里开始呢?我想你会发现这一大堆话并不是那么幼稚。它实际上是一种非常有效的表示数据的方法,可以将数据提供给SVM。如果这还不能给你足够的准确度,你可以在你的特征向量中加入bigram,即单词对,而不仅仅是单字。我想你会发现这袋单词并不是那么幼稚。它实际上是一种非常有效的表示数据的方法,可以将数据提供给SVM。如果这还不能给你足够的准确度,你可以在你的特征向量中加入bigram,即单词对,而不仅仅是单字