Nlp 情绪分析的训练数据

Nlp 情绪分析的训练数据,nlp,machine-learning,text-analysis,sentiment-analysis,training-data,Nlp,Machine Learning,Text Analysis,Sentiment Analysis,Training Data,我在哪里可以获得已被归类为公司领域积极/消极情绪的文档集?我想要一个为公司提供评论的大型文档库,比如分析师和媒体提供的公司评论 我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域语料库(包括公司评论)?我不知道有任何此类语料库可以免费获得,但您可以在未标记的数据集上尝试使用。 你可以用twitter的笑脸,比如: 希望这能让你开始。如果你对特定的子任务感兴趣,比如否定,情绪范围,等等,文献中还有更多 为了关注公司,您可以将一种方法与主题检测相结合,或者廉价地大量提及某家公司。或者

我在哪里可以获得已被归类为公司领域积极/消极情绪的文档集?我想要一个为公司提供评论的大型文档库,比如分析师和媒体提供的公司评论


我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域语料库(包括公司评论)?

我不知道有任何此类语料库可以免费获得,但您可以在未标记的数据集上尝试使用。

你可以用twitter的笑脸,比如:

希望这能让你开始。如果你对特定的子任务感兴趣,比如否定,情绪范围,等等,文献中还有更多

为了关注公司,您可以将一种方法与主题检测相结合,或者廉价地大量提及某家公司。或者你可以用机械土耳其人对你的数据进行注释。

这里还有一些


如果你有一些关于你想探索的领域的资源(媒体频道、博客等),你可以创建自己的语料库。 我在python中这样做:

  • 使用Beautiful Soup解析我想要分类的内容
  • 将这些句子分开,表示对公司的积极/消极看法
  • 使用NLTK处理这些句子、标记单词、词性标记等
  • 使用NLTK PMI计算仅在一个类中频繁出现的二元图或三元图

创建语料库是一项艰苦的工作,包括预处理、检查、标记等,但其好处是为特定领域准备一个模型,可以多次提高准确性。如果您已经准备好语料库,只需继续进行情绪分析;)

您可以从Datafiniti获得大量在线评论。大多数评论都有评级数据,这将提供比正面/负面更详细的情绪信息。这是一个,这是一个。

这是我几周前写的一个列表,来自。其中一些数据集最近已包含在NLTK Python平台中

词汇
  • 刘冰的观点词典

    • URL
    • 论文
    • 注释:包含在NLTK Python平台中
  • MPQA主观性词汇

    • URL
    • 论文
  • SentiWordNet

    • URL
    • 注释:包含在NLTK Python平台中
  • 哈佛普通询问者

    • URL
    • 论文
  • 语言查询和字数统计(LIWC)

    • URL
  • 维德词典

    • URL
    • 论文

数据集集合
  • MPQA数据集

    • URL
    • 注意:GNU公共许可证

      • 政治辩论数据
      • 产品辩论数据
      • 主观性意义诠释
  • 情绪140(推特)

    • URL
    • 论文
    • URL
  • STS金牌(推特)

    • URL
    • 论文
    • 注释:如图所示,但数据集较小,且带有人工注释器。它有3个文件:推特、实体(及其情感)和聚合集
  • 客户评论数据集(产品评论)

    • URL
    • 论文
    • 注释:评论标题、产品特征、带有意见强度的正面/负面标签、其他信息(比较、代词解析等)
    包含在NLTK Python平台中

  • 正反两面数据集(正反两面句子)

    • URL
    • 论文
    • 注释:标记为
    包含在NLTK Python平台中

  • 比较句(评论)

    • URL
    • 论文
    • 注释:句子、词性标记句子、实体、比较类型(不相等、相等、最高级、不可分级)
    包含在NLTK Python平台中

  • 桑德斯分析推特情感语料库(推特)

    • URL
    5513条手工分类的推文包含4个不同的主题。由于Twitter的ToS,一个小的Python脚本被用来下载所有tweet。情绪分类本身是免费提供的,没有任何限制。它们可用于商业产品。它们可能会被重新分配。它们可能会被修改

  • 西班牙语推文(推文)

    • URL
  • SemEval 2014(推特)

    • URL
    您不得重新分发(从自述文件中)获得的推文、注释或语料库

  • 各种数据集(评论)

    • URL
    • 论文
  • 各种数据集#2(评论)

    • URL

参考文献:

  • (我的博客)
  • 个人经历

另请参见此相关问题:仅供参考