Nlp 情绪分析的训练数据
我在哪里可以获得已被归类为公司领域积极/消极情绪的文档集?我想要一个为公司提供评论的大型文档库,比如分析师和媒体提供的公司评论Nlp 情绪分析的训练数据,nlp,machine-learning,text-analysis,sentiment-analysis,training-data,Nlp,Machine Learning,Text Analysis,Sentiment Analysis,Training Data,我在哪里可以获得已被归类为公司领域积极/消极情绪的文档集?我想要一个为公司提供评论的大型文档库,比如分析师和媒体提供的公司评论 我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域语料库(包括公司评论)?我不知道有任何此类语料库可以免费获得,但您可以在未标记的数据集上尝试使用。 你可以用twitter的笑脸,比如: 希望这能让你开始。如果你对特定的子任务感兴趣,比如否定,情绪范围,等等,文献中还有更多 为了关注公司,您可以将一种方法与主题检测相结合,或者廉价地大量提及某家公司。或者
我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域语料库(包括公司评论)?我不知道有任何此类语料库可以免费获得,但您可以在未标记的数据集上尝试使用。 你可以用twitter的笑脸,比如: 希望这能让你开始。如果你对特定的子任务感兴趣,比如否定,情绪范围,等等,文献中还有更多 为了关注公司,您可以将一种方法与主题检测相结合,或者廉价地大量提及某家公司。或者你可以用机械土耳其人对你的数据进行注释。这里还有一些
如果你有一些关于你想探索的领域的资源(媒体频道、博客等),你可以创建自己的语料库。 我在python中这样做:
- 使用Beautiful Soup解析我想要分类的内容李>
- 将这些句子分开,表示对公司的积极/消极看法李>
- 使用NLTK处理这些句子、标记单词、词性标记等
- 使用NLTK PMI计算仅在一个类中频繁出现的二元图或三元图
创建语料库是一项艰苦的工作,包括预处理、检查、标记等,但其好处是为特定领域准备一个模型,可以多次提高准确性。如果您已经准备好语料库,只需继续进行情绪分析;) 您可以从Datafiniti获得大量在线评论。大多数评论都有评级数据,这将提供比正面/负面更详细的情绪信息。这是一个,这是一个。这是我几周前写的一个列表,来自。其中一些数据集最近已包含在NLTK Python平台中 词汇
- 刘冰的观点词典
- URL:
- 论文:
- 注释:包含在NLTK Python平台中
- MPQA主观性词汇
- URL:
- 论文:
- SentiWordNet
- URL:
- 注释:包含在NLTK Python平台中
- 哈佛普通询问者
- URL:
- 论文:
- 语言查询和字数统计(LIWC)
- URL:
- 维德词典
- URL:
- 论文:
数据集集合
- MPQA数据集
- URL:
- 注意:GNU公共许可证
- 政治辩论数据
- 产品辩论数据
- 主观性意义诠释
- 情绪140(推特)
- URL:
- 论文:
- URL:
- STS金牌(推特)
- URL:
- 论文:
- 注释:如图所示,但数据集较小,且带有人工注释器。它有3个文件:推特、实体(及其情感)和聚合集
- 客户评论数据集(产品评论)
- URL:
- 论文:
- 注释:评论标题、产品特征、带有意见强度的正面/负面标签、其他信息(比较、代词解析等)
- 正反两面数据集(正反两面句子)
- URL:
- 论文:
- 注释:标记为
或
- 比较句(评论)
- URL:
- 论文:
- 注释:句子、词性标记句子、实体、比较类型(不相等、相等、最高级、不可分级)
- 桑德斯分析推特情感语料库(推特)
- URL:
- 西班牙语推文(推文)
- URL:
- SemEval 2014(推特)
- URL:
- 各种数据集(评论)
- URL:
- 论文:
- 各种数据集#2(评论)
- URL:
参考文献:
- (我的博客)
- 个人经历