Parallel processing 特征选择、特征提取、特征权重之间的差异
对于“特征选择/提取/权重”的含义以及它们之间的区别,我有点困惑。当我阅读文献时,有时我会感到茫然,因为我发现这个词使用得相当松散,我主要关心的是--Parallel processing 特征选择、特征提取、特征权重之间的差异,parallel-processing,nlp,nltk,stanford-nlp,Parallel Processing,Nlp,Nltk,Stanford Nlp,对于“特征选择/提取/权重”的含义以及它们之间的区别,我有点困惑。当我阅读文献时,有时我会感到茫然,因为我发现这个词使用得相当松散,我主要关心的是-- 当人们谈论特征频率、特征存在时——是特征选择吗 当人们谈论诸如信息增益、最大熵等算法时,它仍然是特征选择 如果我训练分类器——以一个要求分类器记录单词在文档中的位置为例的特征集为例——人们还会称之为特征选择吗 谢谢 Rahul Dighe特征选择是从集合中选择“感兴趣”的特征进行进一步处理的过程 特征频率就是特征出现的频率 信息增益、最大熵等是加
Rahul Dighe特征选择是从集合中选择“感兴趣”的特征进行进一步处理的过程 特征频率就是特征出现的频率 信息增益、最大熵等是加权方法,使用特征频率,进而允许您执行特征选择 你可以这样想: 您可以解析一个语料库,并创建一个术语/文档矩阵。该矩阵以术语计数开始,以及它们出现在哪个文档中(简单频率) 为了使该矩阵更有意义,您可以基于一些函数(如术语频率逆文档频率、信息增益、最大熵)对术语进行加权。现在,该矩阵包含权重,或每个项相对于矩阵中其他项的重要性
一旦你有了这些,你可以使用特征选择只保留最重要的术语(如果你在做分类或分类之类的事情),并进行进一步的分析。特征提取:通过(线性或非线性)降低维度- D维向量到D维向量的线性投影 向量(d
祝你好运 那么什么是特征提取呢?特征提取是降低数据维数的过程(通常通过SVD、PCA等)。请参阅此链接:非常好的解释。链接已断开,但…:)