Statistics 分类中的可变重要性_Statistics_Nlp_Data Mining

Statistics 分类中的可变重要性

statistics nlp

Statistics 分类中的可变重要性,statistics,nlp,data-mining,Statistics,Nlp,Data Mining,我有100本书，每本1000字。他们属于不同的类别（喜剧、戏剧等）。每节课由15本不同的书组成。当我对我的数据进行tfidf时，我得到了一本书中每个单词在所有书籍上下文中的重要性。我发现属于同一类的书籍对于每个变量都有相似的tfidf值假设戏剧和喜剧非常相似。我怎样才能知道这两门课中哪些单词有区别？在这本属于喜剧的书中，我必须改变哪些词，所以这本书现在属于戏剧了我可以一一核对；但我有2000本书，每本17500字；950班。这需要十年的时间：）作为初稿，计算每个类的平均向量，将它们标

我有100本书，每本1000字。他们属于不同的类别（喜剧、戏剧等）。每节课由15本不同的书组成。当我对我的数据进行tfidf时，我得到了一本书中每个单词在所有书籍上下文中的重要性。我发现属于同一类的书籍对于每个变量都有相似的tfidf值

假设戏剧和喜剧非常相似。我怎样才能知道这两门课中哪些单词有区别？在这本属于喜剧的书中，我必须改变哪些词，所以这本书现在属于戏剧了

我可以一一核对；但我有2000本书，每本17500字；950班。这需要十年的时间：）

作为初稿，计算每个类的平均向量，将它们标准化为单位长度，并计算绝对差异

这些应该给你一个粗略的指示，哪些词可以区分这两个类别。

我肯定会进行两两测试，即475*949对类别中的每一对都有一个测试，因为“重要变量”可能会因情况不同而大不相同。然后运行一些标准的特征选择算法，如卡方或信息增益。请参阅广泛的研究。

我也这么认为，是这样做的：）我想知道是否有更“聪明”的事情要做。谢谢你的回答，我还有一个问题。所以，如果我已经有了每个功能的tfidf值，我可以只上两门课（喜剧和戏剧），然后做卡方检验或随机森林检验吗？Tfidf已经为每个元素提供了特性的总体重要性。