Nlp 使用NLTK python对使用示例数据或Web服务的句子进行情感分析?

Nlp 使用NLTK python对使用示例数据或Web服务的句子进行情感分析?,nlp,nltk,weka,classification,Nlp,Nltk,Weka,Classification,我正在着手一个NLP项目,用于情绪分析 我已经成功地安装了用于python的NLTK(这似乎是一个很好的软件)。然而,我很难理解如何使用它来完成我的任务 我的任务是: 我从一长段数据开始(比如说,他们的网站上有几百条关于英国选举主题的推特) 我想把它分成几个句子(或者信息长度不超过100个字符左右)(我想我可以用python来完成这个任务??) 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron” 然后,我想检查每个句子中的积极/消极情绪,并相应地计算它们 注:我并不太担心

我正在着手一个NLP项目,用于情绪分析

我已经成功地安装了用于python的NLTK(这似乎是一个很好的软件)。然而,我很难理解如何使用它来完成我的任务

我的任务是:

  • 我从一长段数据开始(比如说,他们的网站上有几百条关于英国选举主题的推特)
  • 我想把它分成几个句子(或者信息长度不超过100个字符左右)(我想我可以用python来完成这个任务??)
  • 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron”
  • 然后,我想检查每个句子中的积极/消极情绪,并相应地计算它们
  • 注:我并不太担心准确性,因为我的数据集很大,也不太担心讽刺

    以下是我遇到的麻烦:

  • 我能找到的所有数据集,例如NLTK附带的语料库电影评论数据,都不是webservice格式。看起来这已经做了一些处理。据我所知,(斯坦福大学的)处理是用WEKA完成的。NLTK不可能独立完成这一切吗?这里所有的数据集已经被组织成正/负数据集,例如极性数据集。这是如何做到的?(用情感来组织句子,肯定是WEKA?还是其他什么?)

  • 我不知道我是否理解为什么WEKA和NLTK会一起使用。看起来他们做的差不多。如果我先用WEKA处理数据,以发现情绪,为什么我需要NLTK?是否有可能解释为什么这可能是必要的

  • 我发现有几个脚本在某种程度上接近这个任务,但都使用相同的预处理数据。难道不可能自己处理这些数据来发现句子中的情感,而不是使用链接中给出的数据样本吗

    非常感谢您的任何帮助,并将为我节省大量的头发


    Cheers Ke

    电影评论数据已经被人类标记为正面或负面(制作评论的人给电影评级,用于确定极性)。这些金标准标签允许您训练分类器,然后您可以将其用于其他电影评论。您可以使用这些数据在NLTK中训练分类器,但是将结果应用于选举推文可能不如随机猜测正面或负面。或者,你可以自己浏览数千条推文,将其标记为正面或负面,并将其用作你的训练集

    有关使用朴素贝叶斯对NLTK进行情绪分析的说明:


    然后在该代码中,不用电影语料库,而是使用您自己的数据来计算字数(在
    word\u feats
    方法中)。

    为什么不使用WSD。使用消歧工具寻找意义。并使用地图极性的感觉,而不是单词。在这种情况下,与单词索引极性相比,你会得到更准确的结果。

    是的,我在搜索了一段时间后就上了那个网站,但我想我对如何获得每次评论的统计数据有点困惑。如何使用nltk为pos/neg提供带有1或0的审阅ID列表?干杯可能对未来的读者有用:电影评论语料库有“pos”和“neg”两个类别。要获得“neg”目录中的文件ID列表,只需使用
    movie\u reviews.fileid(“neg”)
    。您还可以直接提取否定类别中的所有文本,例如,说,
    movie\u reviews.sents(categories=[“neg”])
    。(这些方法适用于所有已分类的nltk语料库。要列出语料库中的类别,请使用
    corpus.categories()