Nlp 克里斯托弗·波茨'；他的情绪分析器中的39个特征_Nlp_Stanford Nlp_Sentiment Analysis

Nlp 克里斯托弗·波茨'；他的情绪分析器中的39个特征

nlp stanford-nlp

Nlp 克里斯托弗·波茨'；他的情绪分析器中的39个特征,nlp,stanford-nlp,sentiment-analysis,Nlp,Stanford Nlp,Sentiment Analysis,我对情绪分析比较陌生，一直在阅读斯坦福大学教授克里斯托弗·波茨（Christopher Potts）的优秀在线教程在中，他简要讨论了“轻量级、精确的分类器”，并建议了以下步骤：从一组N个固定情感词汇L开始。在我的实验中，我使用了固定极性词汇、IMDB分数和体验项目O/E向量，以及来自哈佛普通询问者和LIWC的总数预测因子为39，均为数字对于给定的文本，特征函数简单地将39个预测值的所有单词分数相加，然后进行归一化按课文的长度排列。因此，每个文本都被建模为一个向量共有39个数字

我对情绪分析比较陌生，一直在阅读斯坦福大学教授克里斯托弗·波茨（Christopher Potts）的优秀在线教程

在中，他简要讨论了“轻量级、精确的分类器”，并建议了以下步骤：

从一组N个固定情感词汇L开始。在我的实验中，我使用了固定极性词汇、IMDB分数和体验项目O/E向量，以及来自哈佛普通询问者和LIWC的总数预测因子为39，均为数字

对于给定的文本，特征函数简单地将39个预测值的所有单词分数相加，然后进行归一化按课文的长度排列。因此，每个文本都被建模为一个向量共有39个数字

我想知道他是从哪里得到这39个特征的？据我所知，这些词典有数千条词条，使用一个单词包模型生成了数千个特征。他是如何从数千个功能发展到39个功能的？他显然做了一些特征选择，但我无法推断他的方法或选择标准
我怀疑他还没有在这里使用文字袋功能。很可能，这些数据源中的每一个都有几个特征：哈佛普通询问者当然有几个类别，每个类别中的一个单词出现的次数可能有一个特征。类似地，经验项目向量每个都有一些维度，这会创建一些特征
这里的要点是尝试制作一个轻量级的、可概括的分类器。如果您想适应特定的数据集，n-gram特性几乎肯定会更好。但是，如果您的培训数据有限，或者想要在不同的领域进行推广，那么拥有这些“密集”的特性是有价值的