Machine learning 文本挖掘中的特征数_Machine Learning_Text Mining_Text Classification

Machine learning 文本挖掘中的特征数

machine-learning

Machine learning 文本挖掘中的特征数,machine-learning,text-mining,text-classification,Machine Learning,Text Mining,Text Classification,我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档（所以语料库大约需要700个）。语料库中的术语数量约为20000个，因此它超过了文档的数量（P>>N）。有这么多特征有什么意义 HashingTF方法中的特征数应该高于语料库中的术语总数？或者我应该把它缩小（比如512个功能？）我有点困惑。假设你说的只是使用Unigram作为特性，那么我们想要p>p（维度诅咒）。你可以用一个大p和L1 reg。如果数据集很小，您可以全部尝试。

我试图建立一个基于文本挖掘的预测模型。我不知道应该在模型中设置多少功能。我的分析中有1000个文档（所以语料库大约需要700个）。语料库中的术语数量约为20000个，因此它超过了文档的数量（P>>N）。有这么多特征有什么意义

HashingTF方法中的特征数应该高于语料库中的术语总数？或者我应该把它缩小（比如512个功能？）

我有点困惑。

假设你说的只是使用Unigram作为特性，那么我们想要p 最后，要达到p

选择计数>=k的要素。测量各种k的性能并选择最佳k，或-

使用除L1正则化之外的所有特征

若你们像你们提到的那个样使用散列，你们应该将特性的数量设置为小于512，因为-

n=700和p=512仍然过于倾斜

通常情况下，重要词语的数量非常少。在你的情况下，它甚至可能少于50。您可以尝试哈希桶数={10、20、50、100、500、1000}，然后选择最好的一个

祝你好运

我会像你说的那样尝试不同数量的功能。我也想到了大公羊。它改变了这个问题很多吗？我可以使用更多的功能吗（比如p=2048）？bigrams是否能发挥作用取决于您试图解决的问题。通常，我们想要n>>p（维度诅咒）。你可以用一个大p和L1 reg。如果数据集很小，您可以全部尝试。