Python 计算列中不同RAW的令牌数
如何在使用Python 计算列中不同RAW的令牌数,python,pandas,nlp,nltk,Python,Pandas,Nlp,Nltk,如何在使用nltk.word\u标记器后计算列中“标记的总数” from nltk.tokenize import word_tokenize train['doc_text'].apply(word_tokenize) 我已经尝试过计算值,但它不起作用,我想是因为我在处理字符串 共有超过18K行,正如预期的那样,在执行word\u tokenize之后,每行中都有单独的单词 我想知道我在栏中的“代币”总数。您需要: # create a new column to get count of
nltk.word\u标记器后计算列中“标记的总数”
from nltk.tokenize import word_tokenize
train['doc_text'].apply(word_tokenize)
我已经尝试过计算值,但它不起作用,我想是因为我在处理字符串
共有超过18K行,正如预期的那样,在执行word\u tokenize
之后,每行中都有单独的单词
我想知道我在栏中的“代币”总数。您需要:
# create a new column to get count of tokens
df['count'] = df['text'].apply(lambda x: len(word_tokenize(x)))
# do summation on a column
total_tokens = df['count'].sum()
print(total_tokens)
你想找到唯一的代币或代币总数?很好,谢谢。代币总数。@AkshayNevrekar谢谢你,谢谢works@AkshayNEvrekar我猜下面的代码会给我df['count']的唯一值。unique,你能确认吗?thanks@AkshayNevrekar非常感谢您的时间和帮助。祝你一切顺利