如何在Python中分类和计算字数

如何在Python中分类和计算字数,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一个来自twitter的评论数据集(例如10个实例)。我想使用Scikit learn Python对类似的单词进行分类和计数,作为输出,如下所示: **Dataset:** comment_text r u cmng or u not cmng I am fine, r u fine my frnd is gr8, wll dn. we r nt going tday I have a fever. 它应该像这样显示输出 Words Count

我有一个来自twitter的评论数据集(例如10个实例)。我想使用Scikit learn Python对类似的单词进行分类和计数,作为输出,如下所示:

**Dataset:** 
  comment_text 
 r u cmng or u not cmng   
I am fine, r u fine  
my frnd is gr8, wll dn.  
 we r nt going tday   
I have a fever.  
它应该像这样显示输出

 Words    Count

u         3
r         3
i         2
cmng      2
fine,     1
wll       1
have      1
fever.    1
not       1
tday      1
my        1
we        1
a         1
or        1
nt        1
going     1
fine      1
dn.       1
gr8,      1
frnd      1
am        1
is        1
dtype: int64
我使用此代码,但显示的输出错误

    text = train_dataset_male['comment_text']
    print(text)
    vectorizer = TfidfVectorizer()
    # tokenize and build vocab
    vectorizer.fit(text)
    # summarize
    print(vectorizer.vocabulary_)
    print(vectorizer.idf_)
    # encode document
    vector = vectorizer.transform([text[0]])
    # summarize encoded vector
    print(vector.shape)
    print(vector.toarray())

Python在标准库中有一个整洁的模块,称为“collections”,用于这类东西。在其中,您可以使用计数器,它最终成为一个字典,用于跟踪单个项,并统计它们在iterable(列表、元组等)中出现的次数

所以

从集合导入计数器
text_counter=计数器(数据集)
#访问“你”一词出现的时间
文本计数器。获取(“您”)

您的代码计算相同句子的数量,我想对所有数据中的单词进行计数和分类,让我们这样做吧。通过调用
split
并使用空格作为分隔符,您可以轻松地将示例应用于单词列表。所以它看起来像是我的句子分割(“”)