如何在Python中分类和计算字数
我有一个来自twitter的评论数据集(例如10个实例)。我想使用Scikit learn Python对类似的单词进行分类和计数,作为输出,如下所示:如何在Python中分类和计算字数,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一个来自twitter的评论数据集(例如10个实例)。我想使用Scikit learn Python对类似的单词进行分类和计数,作为输出,如下所示: **Dataset:** comment_text r u cmng or u not cmng I am fine, r u fine my frnd is gr8, wll dn. we r nt going tday I have a fever. 它应该像这样显示输出 Words Count
**Dataset:**
comment_text
r u cmng or u not cmng
I am fine, r u fine
my frnd is gr8, wll dn.
we r nt going tday
I have a fever.
它应该像这样显示输出
Words Count
u 3
r 3
i 2
cmng 2
fine, 1
wll 1
have 1
fever. 1
not 1
tday 1
my 1
we 1
a 1
or 1
nt 1
going 1
fine 1
dn. 1
gr8, 1
frnd 1
am 1
is 1
dtype: int64
我使用此代码,但显示的输出错误
text = train_dataset_male['comment_text']
print(text)
vectorizer = TfidfVectorizer()
# tokenize and build vocab
vectorizer.fit(text)
# summarize
print(vectorizer.vocabulary_)
print(vectorizer.idf_)
# encode document
vector = vectorizer.transform([text[0]])
# summarize encoded vector
print(vector.shape)
print(vector.toarray())
Python在标准库中有一个整洁的模块,称为“collections”,用于这类东西。在其中,您可以使用计数器,它最终成为一个字典,用于跟踪单个项,并统计它们在iterable(列表、元组等)中出现的次数 所以
从集合导入计数器
text_counter=计数器(数据集)
#访问“你”一词出现的时间
文本计数器。获取(“您”)
您的代码计算相同句子的数量,我想对所有数据中的单词进行计数和分类,让我们这样做吧。通过调用split
并使用空格作为分隔符,您可以轻松地将示例应用于单词列表。所以它看起来像是我的句子分割(“”)