Python 对于海量数据集的情绪分析,是否有确定词典大小的规则?
我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗?如果是这样,那么定义尺寸的规则是什么?我认为没有这样的“规则”。如果你计划使用深度学习,我认为唯一的限制因素是由于记忆/时间的限制,你能负担得起训练多少单词。但是,通过限制最常用单词的子集,您可以获得接近最佳的准确性。我认为如果你只使用一种语言,大约50000个单词是一个合理的开始。如果您需要更好的性能,您可以从那里扩展词汇量Python 对于海量数据集的情绪分析,是否有确定词典大小的规则?,python,machine-learning,nlp,Python,Machine Learning,Nlp,我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗?如果是这样,那么定义尺寸的规则是什么?我认为没有这样的“规则”。如果你计划使用深度学习,我认为唯一的限制因素是由于记忆/时间的限制,你能负担得起训练多少单词。但是,通过限制最常用单词的子集,您可以获得接近最佳的准确性。我认为如果你只使用一种语言,大约50000个单词是一个合理的开始。如果您需要更好的性能,您可以从那里扩展词汇量