Machine learning 文本挖掘中的特征数

Machine learning 文本挖掘中的特征数,machine-learning,text-mining,text-classification,Machine Learning,Text Mining,Text Classification,我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档(所以语料库大约需要700个)。语料库中的术语数量约为20000个,因此它超过了文档的数量(P>>N)。有这么多特征有什么意义 HashingTF方法中的特征数应该高于语料库中的术语总数?或者我应该把它缩小(比如512个功能?) 我有点困惑。假设你说的只是使用Unigram作为特性,那么我们想要p>p(维度诅咒)。你可以用一个大p和L1 reg。如果数据集很小,您可以全部尝试。

我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档(所以语料库大约需要700个)。语料库中的术语数量约为20000个,因此它超过了文档的数量(P>>N)。有这么多特征有什么意义

HashingTF方法中的特征数应该高于语料库中的术语总数?或者我应该把它缩小(比如512个功能?)


我有点困惑。

假设你说的只是使用Unigram作为特性,那么我们想要p 最后,要达到p
  • 选择计数>=k的要素。测量各种k的性能并选择最佳k,或-

  • 使用除L1正则化之外的所有特征

  • 若你们像你们提到的那个样使用散列,你们应该将特性的数量设置为小于512,因为-

  • n=700和p=512仍然过于倾斜
  • 通常情况下,重要词语的数量非常少。在你的情况下,它甚至可能少于50。您可以尝试哈希桶数={10、20、50、100、500、1000},然后选择最好的一个

  • 祝你好运

    我会像你说的那样尝试不同数量的功能。我也想到了大公羊。它改变了这个问题很多吗?我可以使用更多的功能吗(比如p=2048)?bigrams是否能发挥作用取决于您试图解决的问题。通常,我们想要n>>p(维度诅咒)。你可以用一个大p和L1 reg。如果数据集很小,您可以全部尝试。