Nlp 克里斯托弗·波茨';他的情绪分析器中的39个特征

Nlp 克里斯托弗·波茨';他的情绪分析器中的39个特征,nlp,stanford-nlp,sentiment-analysis,Nlp,Stanford Nlp,Sentiment Analysis,我对情绪分析比较陌生,一直在阅读斯坦福大学教授克里斯托弗·波茨(Christopher Potts)的优秀在线教程 在中,他简要讨论了“轻量级、精确的分类器”,并建议了以下步骤: 从一组N个固定情感词汇L开始。在我的实验中,我使用了固定极性词汇、IMDB分数和 体验项目O/E向量,以及来自 哈佛普通询问者和LIWC的总数 预测因子为39,均为数字 对于给定的文本,特征函数简单地将39个预测值的所有单词分数相加,然后进行归一化 按课文的长度排列。因此,每个文本都被建模为一个向量 共有39个数字

我对情绪分析比较陌生,一直在阅读斯坦福大学教授克里斯托弗·波茨(Christopher Potts)的优秀在线教程

在中,他简要讨论了“轻量级、精确的分类器”,并建议了以下步骤:

  • 从一组N个固定情感词汇L开始。在我的实验中,我使用了固定极性词汇、IMDB分数和 体验项目O/E向量,以及来自 哈佛普通询问者和LIWC的总数 预测因子为39,均为数字
  • 对于给定的文本,特征函数简单地将39个预测值的所有单词分数相加,然后进行归一化 按课文的长度排列。因此,每个文本都被建模为一个向量 共有39个数字

  • 我想知道他是从哪里得到这39个特征的?据我所知,这些词典有数千条词条,使用一个单词包模型生成了数千个特征。他是如何从数千个功能发展到39个功能的?他显然做了一些特征选择,但我无法推断他的方法或选择标准

    我怀疑他还没有在这里使用文字袋功能。很可能,这些数据源中的每一个都有几个特征:哈佛普通询问者当然有几个类别,每个类别中的一个单词出现的次数可能有一个特征。类似地,经验项目向量每个都有一些维度,这会创建一些特征

    这里的要点是尝试制作一个轻量级的、可概括的分类器。如果您想适应特定的数据集,n-gram特性几乎肯定会更好。但是,如果您的培训数据有限,或者想要在不同的领域进行推广,那么拥有这些“密集”的特性是有价值的