Machine learning &引用;“合并”;语料库中单个类别文档的TF-IDF分数

Machine learning &引用;“合并”;语料库中单个类别文档的TF-IDF分数,machine-learning,nlp,tf-idf,text-classification,Machine Learning,Nlp,Tf Idf,Text Classification,假设我计算了一组文档的TF-IDF分数,得到了TF-IDF特征矩阵。如果这些文档的一个子集属于某个类别,我能否以某种方式“组合”该子集的分数,从而以有意义的方式获得该类别中每个特征的单个值 例如,如果我有1000个文档的语料库,并且语料库[0:200]属于a类,那么我可以获取tf idf分数的0-200行,并以某种方式组合它们,这样我就可以说,“在a类中,特征[3]的分数为0.5。” 我希望从语料库中的每个类中提取最有意义的术语。有没有一个合理的方法来做到这一点?我的问题一开始是否表明了对这个概

假设我计算了一组文档的TF-IDF分数,得到了TF-IDF特征矩阵。如果这些文档的一个子集属于某个类别,我能否以某种方式“组合”该子集的分数,从而以有意义的方式获得该类别中每个特征的单个值

例如,如果我有1000个文档的语料库,并且
语料库[0:200]
属于a类,那么我可以获取tf idf分数的0-200行,并以某种方式组合它们,这样我就可以说,“在a类中,特征[3]的分数为0.5。”


我希望从语料库中的每个类中提取最有意义的术语。有没有一个合理的方法来做到这一点?我的问题一开始是否表明了对这个概念的误解?任何反馈都会得到广泛的赞赏。

您所描述的就像“功能选择”。提取tf idf分数后,您的文档可能如下所示:

doc1: london:0.2 british:0.5 travel:0.1
doc2: coffee:0.2 brazil:0.1 travel:0.5
doc3: meat:0.8 avian 0.001 birds:0.2
doc4: agriculture:0.5 meat:0.5 chicken:0.01
假设doc1和doc2为0类:“城市”,doc3和doc4为1类:“家禽”。然后,您可以计算术语
t
和类
c
的预期
互信息

有关如何在上执行基于互信息的特征选择的详细信息,请参见