Machine learning 检测一堆文本中的噪声数据有哪些不同的策略？_Machine Learning_Nlp_Text Processing_Statistics

Machine learning 检测一堆文本中的噪声数据有哪些不同的策略？

machine-learning nlp statistics

Machine learning 检测一堆文本中的噪声数据有哪些不同的策略？,machine-learning,nlp,text-processing,statistics,Machine Learning,Nlp,Text Processing,Statistics,我有大约10GB的文本，根据单词包模型从中提取特征。问题是，特征空间是非常高维的（100万个单词），我不能根据每个单词的计数丢弃单词，因为出现次数最多和最少的单词对模型的性能都很重要。在保持/提高模型性能的同时，减少培训数据的大小和功能的数量有哪些不同的策略？编辑：由于过度拟合和训练时间，我希望减少训练数据的大小。我使用FastRank（增强树）作为我的ML模型。我的机器有一个运行8GB RAM的核心i5处理器。培训实例数量约为7-8亿。在处理过程中，模型训练需要一个多小时。目前，我对训练和

我有大约10GB的文本，根据单词包模型从中提取特征。问题是，特征空间是非常高维的（100万个单词），我不能根据每个单词的计数丢弃单词，因为出现次数最多和最少的单词对模型的性能都很重要。在保持/提高模型性能的同时，减少培训数据的大小和功能的数量有哪些不同的策略？
编辑：

由于过度拟合和训练时间，我希望减少训练数据的大小。我使用FastRank（增强树）作为我的ML模型。我的机器有一个运行8GB RAM的核心i5处理器。培训实例数量约为7-8亿。在处理过程中，模型训练需要一个多小时。目前，我对训练和测试数据进行随机抽样，以便将大小减少到700MB左右，以便模型的训练在几分钟内完成。

我不完全确定这是否会对您有所帮助，因为我不知道您的研究是关于什么的，但是否有一种合乎逻辑的方法将10ig文本（分成文档或段落）进行划分也许，你可以试试tf idf

这将允许您丢弃经常出现在所有分区中的单词，通常（理解是）它们不会对整个文档/段落等产生重大价值

如果你唯一的要求是保留最频繁和最不频繁的单词，那么单词频率的标准分布会有帮助吗？去掉平均值和1个标准差（或任何你认为合适的数字）

你的模型需要字数吗？也许一个简单的二进制模型和一个位集就足够每个向量125kb。