Python 条件频率分布

Python 条件频率分布,python,plot,nltk,Python,Plot,Nltk,我是一个完全的新手,正在学习使用自然语言工具包使用python。 我一直试图用其中最常用的词来分析一篇文章。具体地说,我正在尝试将其中最常见的长单词(超过6个字母)绘制成一个图表。有人能建议如何调整累积频率图吗 fdist.plot(累积=假) 所以它只适用于长单词 谢谢大家! 对单词列表进行标记后,在列表理解中使用len()删除不需要的单词 from nltk import word_tokenize tokens = word_tokenize(input_string) long_wor

我是一个完全的新手,正在学习使用自然语言工具包使用python。 我一直试图用其中最常用的词来分析一篇文章。具体地说,我正在尝试将其中最常见的长单词(超过6个字母)绘制成一个图表。有人能建议如何调整累积频率图吗 fdist.plot(累积=假) 所以它只适用于长单词


谢谢大家!

对单词列表进行标记后,在列表理解中使用len()删除不需要的单词

from nltk import word_tokenize
tokens = word_tokenize(input_string)

long_words = [x for x in tokens if len(x) > 7]

使用此新标记列表执行分析。查看更详细的解释

请发布您的代码:)您可能希望让此文档指导您对问题的返工: