Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/284.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 对于海量数据集的情绪分析,是否有确定词典大小的规则?_Python_Machine Learning_Nlp - Fatal编程技术网

Python 对于海量数据集的情绪分析,是否有确定词典大小的规则?

Python 对于海量数据集的情绪分析,是否有确定词典大小的规则?,python,machine-learning,nlp,Python,Machine Learning,Nlp,我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗?如果是这样,那么定义尺寸的规则是什么?我认为没有这样的“规则”。如果你计划使用深度学习,我认为唯一的限制因素是由于记忆/时间的限制,你能负担得起训练多少单词。但是,通过限制最常用单词的子集,您可以获得接近最佳的准确性。我认为如果你只使用一种语言,大约50000个单词是一个合理的开始。如果您需要更好的性能,您可以从那里扩展词汇量

我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太频繁的单词来限制词典的大小吗?如果是这样,那么定义尺寸的规则是什么?

我认为没有这样的“规则”。如果你计划使用深度学习,我认为唯一的限制因素是由于记忆/时间的限制,你能负担得起训练多少单词。但是,通过限制最常用单词的子集,您可以获得接近最佳的准确性。我认为如果你只使用一种语言,大约50000个单词是一个合理的开始。如果您需要更好的性能,您可以从那里扩展词汇量