Nlp 财经新闻标题分类为正/负类_Nlp_Classification_Svm_Sentiment Analysis

Nlp 财经新闻标题分类为正/负类

nlp

Nlp 财经新闻标题分类为正/负类,nlp,classification,svm,sentiment-analysis,Nlp,Classification,Svm,Sentiment Analysis,我正在做一个小的研究项目，我应该尝试将财经新闻文章标题分为正面和负面两类。对于分类，我使用SVM方法。我现在看到的主要问题是，不能为ML生成很多功能。新闻文章包含许多命名实体和其他“垃圾”元素（当然，在我看来）您能推荐可用于ML培训的ML功能吗？目前的结果是：精度=0.6，召回率=0.8 谢谢这些功能怎么样文章标题的长度（大写）平均字长 “坏”字字典中的字数，例如字典={可怕、可怕、衰退、破产，}。您可能需要自己生成此字典那本词典中的单词占句子中单词总数的比率与3相似，但“良好”词汇词

我正在做一个小的研究项目，我应该尝试将财经新闻文章标题分为正面和负面两类。对于分类，我使用SVM方法。我现在看到的主要问题是，不能为ML生成很多功能。新闻文章包含许多命名实体和其他“垃圾”元素（当然，在我看来）

您能推荐可用于ML培训的ML功能吗？目前的结果是：精度=0.6，召回率=0.8

谢谢

这些功能怎么样

文章标题的长度（大写）

平均字长

“坏”字字典中的字数，例如字典={可怕、可怕、衰退、破产，}。您可能需要自己生成此字典

那本词典中的单词占句子中单词总数的比率

与3相似，但“良好”词汇词典中的词数，例如词典={boon，Blooming，employment，…}

类似于5，但使用“好”字词典

文章发表的时间

文章发表日期

出版它的媒介（你必须做一些主观分类）

某些标点符号的计数，如感叹号

如果你被允许访问实际文章，你可以使用实际文章的表面特征，例如文章的总长度，甚至可能是回复的数量或对该文章的反对程度。你还可以在线查看许多其他词典，如奥格登的850基础英语词典，看看好坏文章是否会被删除我可能会从中提取很多单词。我同意，要为此目的列出一长串有用功能（例如100个功能）似乎很困难。

这项任务一点也不琐碎

简单的方法是找到或创建一个训练集，这是一组带有正面消息的标题集和一组带有负面消息的标题集。将训练集转换为TF/IDF表示，然后训练一个线性SVM来分离这两个类。根据训练集的质量和大小，您可以获得一些不错的结果-不确定是否达到0.7的收支平衡点

然后，为了获得更好的结果，你需要使用NLP方法。尝试使用词性标记器来识别形容词（琐碎），然后使用一些情感数据库（如SentiWordNet）对它们进行评分

关于Lee有一个非常好的概述，你应该读到：

Ilisfl是对的，这不是一个简单的任务

我会使用一袋单词的方法，但首先使用词性标记器标记标题中的每个单词。然后你可以删除所有命名实体-正如你正确指出的那样，这些实体不会影响情绪。其他单词应该足够频繁地出现（如果你的数据集足够大）消除自己被极化为积极或消极

再往前走一步，如果你还没有接近，可以只从标记的数据中选择形容词和动词，因为它们是倾向于传达情感或情绪的单词

不过，我不会对你的准确度和召回率太失望，F值为0.8或更高实际上相当不错。

谢谢你的评论。不幸的是，目前语料库相当不平衡，我正在等待这方面的改进。此外，我已经将POS功能与word的词根相结合。A si还使用了情感词的简单词汇表。是的。我已经对词应用了词性标记，并删除了命名实体。顺便说一句，用“公司”、“地点”等值替换命名实体可能有某种意义实体。稍后再试。另外，在这一刻，我只使用形容词、动词和副词作为特征，而忽略非情感词的名词。F目前也在0.8左右。@D Seita。谢谢你的输入。一些想法看起来很有趣。我将尝试应用它们。