Nlp 使用NLTK python对使用示例数据或Web服务的句子进行情感分析？_Nlp_Nltk_Weka_Classification

Nlp 使用NLTK python对使用示例数据或Web服务的句子进行情感分析？

nlp

Nlp 使用NLTK python对使用示例数据或Web服务的句子进行情感分析？,nlp,nltk,weka,classification,Nlp,Nltk,Weka,Classification,我正在着手一个NLP项目，用于情绪分析我已经成功地安装了用于python的NLTK（这似乎是一个很好的软件）。然而，我很难理解如何使用它来完成我的任务我的任务是：我从一长段数据开始（比如说，他们的网站上有几百条关于英国选举主题的推特）我想把它分成几个句子（或者信息长度不超过100个字符左右）（我想我可以用python来完成这个任务？？）然后在所有句子中搜索该句子中的特定实例，例如“David Cameron” 然后，我想检查每个句子中的积极/消极情绪，并相应地计算它们注：我并不太担心

我正在着手一个NLP项目，用于情绪分析

我已经成功地安装了用于python的NLTK（这似乎是一个很好的软件）。然而，我很难理解如何使用它来完成我的任务

我的任务是：

我从一长段数据开始（比如说，他们的网站上有几百条关于英国选举主题的推特）

我想把它分成几个句子（或者信息长度不超过100个字符左右）（我想我可以用python来完成这个任务？？）

然后在所有句子中搜索该句子中的特定实例，例如“David Cameron”

然后，我想检查每个句子中的积极/消极情绪，并相应地计算它们

注：我并不太担心准确性，因为我的数据集很大，也不太担心讽刺

以下是我遇到的麻烦：

我能找到的所有数据集，例如NLTK附带的语料库电影评论数据，都不是webservice格式。看起来这已经做了一些处理。据我所知，（斯坦福大学的）处理是用WEKA完成的。NLTK不可能独立完成这一切吗？这里所有的数据集已经被组织成正/负数据集，例如极性数据集。这是如何做到的？（用情感来组织句子，肯定是WEKA？还是其他什么？）

我不知道我是否理解为什么WEKA和NLTK会一起使用。看起来他们做的差不多。如果我先用WEKA处理数据，以发现情绪，为什么我需要NLTK？是否有可能解释为什么这可能是必要的

我发现有几个脚本在某种程度上接近这个任务，但都使用相同的预处理数据。难道不可能自己处理这些数据来发现句子中的情感，而不是使用链接中给出的数据样本吗

非常感谢您的任何帮助，并将为我节省大量的头发

Cheers Ke

电影评论数据已经被人类标记为正面或负面（制作评论的人给电影评级，用于确定极性）。这些金标准标签允许您训练分类器，然后您可以将其用于其他电影评论。您可以使用这些数据在NLTK中训练分类器，但是将结果应用于选举推文可能不如随机猜测正面或负面。或者，你可以自己浏览数千条推文，将其标记为正面或负面，并将其用作你的训练集

有关使用朴素贝叶斯对NLTK进行情绪分析的说明：

然后在该代码中，不用电影语料库，而是使用您自己的数据来计算字数（在

word\u feats

方法中）。

为什么不使用WSD。使用消歧工具寻找意义。并使用地图极性的感觉，而不是单词。在这种情况下，与单词索引极性相比，你会得到更准确的结果。

是的，我在搜索了一段时间后就上了那个网站，但我想我对如何获得每次评论的统计数据有点困惑。如何使用nltk为pos/neg提供带有1或0的审阅ID列表？干杯可能对未来的读者有用：电影评论语料库有“pos”和“neg”两个类别。要获得“neg”目录中的文件ID列表，只需使用

movie\u reviews.fileid（“neg”）

。您还可以直接提取否定类别中的所有文本，例如，说，

movie\u reviews.sents（categories=[“neg”]）

。（这些方法适用于所有已分类的nltk语料库。要列出语料库中的类别，请使用

corpus.categories（）

）