Machine learning &引用；“合并”；语料库中单个类别文档的TF-IDF分数_Machine Learning_Nlp_Tf Idf_Text Classification

Machine learning &引用；“合并”；语料库中单个类别文档的TF-IDF分数

machine-learning nlp

Machine learning &引用；“合并”；语料库中单个类别文档的TF-IDF分数,machine-learning,nlp,tf-idf,text-classification,Machine Learning,Nlp,Tf Idf,Text Classification,假设我计算了一组文档的TF-IDF分数，得到了TF-IDF特征矩阵。如果这些文档的一个子集属于某个类别，我能否以某种方式“组合”该子集的分数，从而以有意义的方式获得该类别中每个特征的单个值例如，如果我有1000个文档的语料库，并且语料库[0:200]属于a类，那么我可以获取tf idf分数的0-200行，并以某种方式组合它们，这样我就可以说，“在a类中，特征[3]的分数为0.5。” 我希望从语料库中的每个类中提取最有意义的术语。有没有一个合理的方法来做到这一点？我的问题一开始是否表明了对这个概

假设我计算了一组文档的TF-IDF分数，得到了TF-IDF特征矩阵。如果这些文档的一个子集属于某个类别，我能否以某种方式“组合”该子集的分数，从而以有意义的方式获得该类别中每个特征的单个值

例如，如果我有1000个文档的语料库，并且

语料库[0:200]

属于a类，那么我可以获取tf idf分数的0-200行，并以某种方式组合它们，这样我就可以说，“在a类中，特征[3]的分数为0.5。”

我希望从语料库中的每个类中提取最有意义的术语。有没有一个合理的方法来做到这一点？我的问题一开始是否表明了对这个概念的误解？任何反馈都会得到广泛的赞赏。

您所描述的就像“功能选择”。提取tf idf分数后，您的文档可能如下所示：

doc1: london:0.2 british:0.5 travel:0.1
doc2: coffee:0.2 brazil:0.1 travel:0.5
doc3: meat:0.8 avian 0.001 birds:0.2
doc4: agriculture:0.5 meat:0.5 chicken:0.01

假设doc1和doc2为0类：“城市”，doc3和doc4为1类：“家禽”。然后，您可以计算术语

和类

的预期

互信息
有关如何在上执行基于互信息的特征选择的详细信息，请参见