Python 对于海量数据集的情绪分析，是否有确定词典大小的规则？_Python_Machine Learning_Nlp

Python 对于海量数据集的情绪分析，是否有确定词典大小的规则？

python machine-learning nlp

Python 对于海量数据集的情绪分析，是否有确定词典大小的规则？,python,machine-learning,nlp,Python,Machine Learning,Nlp,我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗？如果是这样，那么定义尺寸的规则是什么？我认为没有这样的“规则”。如果你计划使用深度学习，我认为唯一的限制因素是由于记忆/时间的限制，你能负担得起训练多少单词。但是，通过限制最常用单词的子集，您可以获得接近最佳的准确性。我认为如果你只使用一种语言，大约50000个单词是一个合理的开始。如果您需要更好的性能，您可以从那里扩展词汇量

我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗？如果是这样，那么定义尺寸的规则是什么？

我认为没有这样的“规则”。如果你计划使用深度学习，我认为唯一的限制因素是由于记忆/时间的限制，你能负担得起训练多少单词。但是，通过限制最常用单词的子集，您可以获得接近最佳的准确性。我认为如果你只使用一种语言，大约50000个单词是一个合理的开始。如果您需要更好的性能，您可以从那里扩展词汇量