Pandas 使用jupyter笔记本进行Facebook messenger分析_Pandas_Nlp_Nltk_Tokenize

Pandas 使用jupyter笔记本进行Facebook messenger分析

pandas nlp

Pandas 使用jupyter笔记本进行Facebook messenger分析,pandas,nlp,nltk,tokenize,Pandas,Nlp,Nltk,Tokenize,我下载了Facebook messenger数据，并试图对其进行分析。所以我的目标是知道一个单词在所有消息中出现的次数。我将JSON文件转换为一个数据帧，我有一个包含所有消息的列。我将messages列转换为一个列表，并尝试使用NLTK来计算单词数 from nltk.tokenize import word_tokenize from nltk.probability import FreqDist mylist = df['content'].tolist() tok_words =

我下载了Facebook messenger数据，并试图对其进行分析。所以我的目标是知道一个单词在所有消息中出现的次数。我将JSON文件转换为一个数据帧，我有一个包含所有消息的列。我将messages列转换为一个列表，并尝试使用NLTK来计算单词数

from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

mylist = df['content'].tolist()
tok_words = [word_tokenize(i) for i in mylist]

但问题是，当我尝试使用FreqDist时，它显示了一个错误“TypeError:unhabable type:‘list’”

当我尝试这个时，它对我有效

fdist = FreqDist(tok_words[0])
fdist.most_common(5)

我想对所有列表使用FreqDist，而不仅仅是第一个索引。

尝试：

fdist = FreqDist()
for words in tok_words:
    fdist.update(FreqDist(words))
fdist.most_common(5)

尝试：

您能提供一个具有预期结果的示例数据框吗？您能提供一个具有预期结果的示例数据框吗？

fdist = FreqDist()
for words in tok_words:
    fdist.update(FreqDist(words))
fdist.most_common(5)