Nlp 财经新闻标题分类为正/负类

Nlp 财经新闻标题分类为正/负类,nlp,classification,svm,sentiment-analysis,Nlp,Classification,Svm,Sentiment Analysis,我正在做一个小的研究项目,我应该尝试将财经新闻文章标题分为正面和负面两类。对于分类,我使用SVM方法。我现在看到的主要问题是,不能为ML生成很多功能。新闻文章包含许多命名实体和其他“垃圾”元素(当然,在我看来) 您能推荐可用于ML培训的ML功能吗?目前的结果是:精度=0.6,召回率=0.8 谢谢这些功能怎么样 文章标题的长度(大写) 平均字长 “坏”字字典中的字数,例如字典={可怕、可怕、衰退、破产,}。您可能需要自己生成此字典 那本词典中的单词占句子中单词总数的比率 与3相似,但“良好”词汇词

我正在做一个小的研究项目,我应该尝试将财经新闻文章标题分为正面和负面两类。对于分类,我使用SVM方法。我现在看到的主要问题是,不能为ML生成很多功能。新闻文章包含许多命名实体和其他“垃圾”元素(当然,在我看来)

您能推荐可用于ML培训的ML功能吗?目前的结果是:精度=0.6,召回率=0.8


谢谢

这些功能怎么样

  • 文章标题的长度(大写)
  • 平均字长
  • “坏”字字典中的字数,例如字典={可怕、可怕、衰退、破产,}。您可能需要自己生成此字典
  • 那本词典中的单词占句子中单词总数的比率
  • 与3相似,但“良好”词汇词典中的词数,例如词典={boon,Blooming,employment,…}
  • 类似于5,但使用“好”字词典
  • 文章发表的时间
  • 文章发表日期
  • 出版它的媒介(你必须做一些主观分类)
  • 某些标点符号的计数,如感叹号

  • 如果你被允许访问实际文章,你可以使用实际文章的表面特征,例如文章的总长度,甚至可能是回复的数量或对该文章的反对程度。你还可以在线查看许多其他词典,如奥格登的850基础英语词典,看看好坏文章是否会被删除我可能会从中提取很多单词。我同意,要为此目的列出一长串有用功能(例如100个功能)似乎很困难。

    这项任务一点也不琐碎

    简单的方法是找到或创建一个训练集,这是一组带有正面消息的标题集和一组带有负面消息的标题集。 将训练集转换为TF/IDF表示,然后训练一个线性SVM来分离这两个类。根据训练集的质量和大小,您可以获得一些不错的结果-不确定是否达到0.7的收支平衡点

    然后,为了获得更好的结果,你需要使用NLP方法。尝试使用词性标记器来识别形容词(琐碎),然后使用一些情感数据库(如SentiWordNet)对它们进行评分


    关于Lee有一个非常好的概述,你应该读到:

    Ilisfl是对的,这不是一个简单的任务

    我会使用一袋单词的方法,但首先使用词性标记器标记标题中的每个单词。然后你可以删除所有命名实体-正如你正确指出的那样,这些实体不会影响情绪。其他单词应该足够频繁地出现(如果你的数据集足够大)消除自己被极化为积极或消极

    再往前走一步,如果你还没有接近,可以只从标记的数据中选择形容词和动词,因为它们是倾向于传达情感或情绪的单词


    不过,我不会对你的准确度和召回率太失望,F值为0.8或更高实际上相当不错。

    谢谢你的评论。不幸的是,目前语料库相当不平衡,我正在等待这方面的改进。此外,我已经将POS功能与word的词根相结合。A si还使用了情感词的简单词汇表。是的。我已经对词应用了词性标记,并删除了命名实体。顺便说一句,用“公司”、“地点”等值替换命名实体可能有某种意义实体。稍后再试。另外,在这一刻,我只使用形容词、动词和副词作为特征,而忽略非情感词的名词。F目前也在0.8左右。@D Seita。谢谢你的输入。一些想法看起来很有趣。我将尝试应用它们。