Statistics 分类中的可变重要性

Statistics 分类中的可变重要性,statistics,nlp,data-mining,Statistics,Nlp,Data Mining,我有100本书,每本1000字。他们属于不同的类别(喜剧、戏剧等)。每节课由15本不同的书组成。 当我对我的数据进行tfidf时,我得到了一本书中每个单词在所有书籍上下文中的重要性。 我发现属于同一类的书籍对于每个变量都有相似的tfidf值 假设戏剧和喜剧非常相似。 我怎样才能知道这两门课中哪些单词有区别? 在这本属于喜剧的书中,我必须改变哪些词,所以这本书现在属于戏剧了 我可以一一核对;但我有2000本书,每本17500字;950班。这需要十年的时间:)作为初稿,计算每个类的平均向量,将它们标

我有100本书,每本1000字。他们属于不同的类别(喜剧、戏剧等)。每节课由15本不同的书组成。 当我对我的数据进行tfidf时,我得到了一本书中每个单词在所有书籍上下文中的重要性。 我发现属于同一类的书籍对于每个变量都有相似的tfidf值

假设戏剧和喜剧非常相似。 我怎样才能知道这两门课中哪些单词有区别? 在这本属于喜剧的书中,我必须改变哪些词,所以这本书现在属于戏剧了


我可以一一核对;但我有2000本书,每本17500字;950班。这需要十年的时间:)

作为初稿,计算每个类的平均向量,将它们标准化为单位长度,并计算绝对差异


这些应该给你一个粗略的指示,哪些词可以区分这两个类别。

我肯定会进行两两测试,即475*949对类别中的每一对都有一个测试,因为“重要变量”可能会因情况不同而大不相同。然后运行一些标准的特征选择算法,如卡方或信息增益。请参阅广泛的研究。

我也这么认为,是这样做的:)我想知道是否有更“聪明”的事情要做。谢谢你的回答,我还有一个问题。所以,如果我已经有了每个功能的tfidf值,我可以只上两门课(喜剧和戏剧),然后做卡方检验或随机森林检验吗?Tfidf已经为每个元素提供了特性的总体重要性。