Machine learning 文本挖掘中的特征数
我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档(所以语料库大约需要700个)。语料库中的术语数量约为20000个,因此它超过了文档的数量(P>>N)。有这么多特征有什么意义 HashingTF方法中的特征数应该高于语料库中的术语总数?或者我应该把它缩小(比如512个功能?)Machine learning 文本挖掘中的特征数,machine-learning,text-mining,text-classification,Machine Learning,Text Mining,Text Classification,我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档(所以语料库大约需要700个)。语料库中的术语数量约为20000个,因此它超过了文档的数量(P>>N)。有这么多特征有什么意义 HashingTF方法中的特征数应该高于语料库中的术语总数?或者我应该把它缩小(比如512个功能?) 我有点困惑。假设你说的只是使用Unigram作为特性,那么我们想要p>p(维度诅咒)。你可以用一个大p和L1 reg。如果数据集很小,您可以全部尝试。
我有点困惑。假设你说的只是使用Unigram作为特性,那么我们想要p
祝你好运 我会像你说的那样尝试不同数量的功能。我也想到了大公羊。它改变了这个问题很多吗?我可以使用更多的功能吗(比如p=2048)?bigrams是否能发挥作用取决于您试图解决的问题。通常,我们想要n>>p(维度诅咒)。你可以用一个大p和L1 reg。如果数据集很小,您可以全部尝试。