Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/285.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 计算列中不同RAW的令牌数_Python_Pandas_Nlp_Nltk - Fatal编程技术网

Python 计算列中不同RAW的令牌数

Python 计算列中不同RAW的令牌数,python,pandas,nlp,nltk,Python,Pandas,Nlp,Nltk,如何在使用nltk.word\u标记器后计算列中“标记的总数” from nltk.tokenize import word_tokenize train['doc_text'].apply(word_tokenize) 我已经尝试过计算值,但它不起作用,我想是因为我在处理字符串 共有超过18K行,正如预期的那样,在执行word\u tokenize之后,每行中都有单独的单词 我想知道我在栏中的“代币”总数。您需要: # create a new column to get count of

如何在使用
nltk.word\u标记器后计算列中“标记的总数

from nltk.tokenize import word_tokenize

train['doc_text'].apply(word_tokenize)
我已经尝试过计算值,但它不起作用,我想是因为我在处理字符串

共有超过18K行,正如预期的那样,在执行
word\u tokenize
之后,每行中都有单独的单词

我想知道我在栏中的“代币”总数。

您需要:

# create a new column to get count of tokens
df['count'] = df['text'].apply(lambda x: len(word_tokenize(x)))

# do summation on a column
total_tokens = df['count'].sum()
print(total_tokens)

你想找到唯一的代币或代币总数?很好,谢谢。代币总数。@AkshayNevrekar谢谢你,谢谢works@AkshayNEvrekar我猜下面的代码会给我df['count']的唯一值。unique,你能确认吗?thanks@AkshayNevrekar非常感谢您的时间和帮助。祝你一切顺利