Machine learning 检测一堆文本中的噪声数据有哪些不同的策略?

Machine learning 检测一堆文本中的噪声数据有哪些不同的策略?,machine-learning,nlp,text-processing,statistics,Machine Learning,Nlp,Text Processing,Statistics,我有大约10GB的文本,根据单词包模型从中提取特征。问题是,特征空间是非常高维的(100万个单词),我不能根据每个单词的计数丢弃单词,因为出现次数最多和最少的单词对模型的性能都很重要。在保持/提高模型性能的同时,减少培训数据的大小和功能的数量有哪些不同的策略? 编辑: 由于过度拟合和训练时间,我希望减少训练数据的大小。我使用FastRank(增强树)作为我的ML模型。我的机器有一个运行8GB RAM的核心i5处理器。培训实例数量约为7-8亿。在处理过程中,模型训练需要一个多小时。目前,我对训练和

我有大约10GB的文本,根据单词包模型从中提取特征。问题是,特征空间是非常高维的(100万个单词),我不能根据每个单词的计数丢弃单词,因为出现次数最多和最少的单词对模型的性能都很重要。在保持/提高模型性能的同时,减少培训数据的大小和功能的数量有哪些不同的策略?
编辑:
由于过度拟合和训练时间,我希望减少训练数据的大小。我使用FastRank(增强树)作为我的ML模型。我的机器有一个运行8GB RAM的核心i5处理器。培训实例数量约为7-8亿。在处理过程中,模型训练需要一个多小时。目前,我对训练和测试数据进行随机抽样,以便将大小减少到700MB左右,以便模型的训练在几分钟内完成。

我不完全确定这是否会对您有所帮助,因为我不知道您的研究是关于什么的,但是否有一种合乎逻辑的方法将10ig文本(分成文档或段落)进行划分也许,你可以试试tf idf

这将允许您丢弃经常出现在所有分区中的单词,通常(理解是)它们不会对整个文档/段落等产生重大价值


如果你唯一的要求是保留最频繁和最不频繁的单词,那么单词频率的标准分布会有帮助吗?去掉平均值和1个标准差(或任何你认为合适的数字)

你的模型需要字数吗?也许一个简单的二进制模型和一个位集就足够每个向量125kb。