如何在Python中分类和计算字数_Python_Machine Learning_Scikit Learn

如何在Python中分类和计算字数

python machine-learning scikit-learn

如何在Python中分类和计算字数,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一个来自twitter的评论数据集（例如10个实例）。我想使用Scikit learn Python对类似的单词进行分类和计数，作为输出，如下所示： **Dataset:** comment_text r u cmng or u not cmng I am fine, r u fine my frnd is gr8, wll dn. we r nt going tday I have a fever. 它应该像这样显示输出 Words Count

我有一个来自twitter的评论数据集（例如10个实例）。我想使用Scikit learn Python对类似的单词进行分类和计数，作为输出，如下所示：

**Dataset:** 
  comment_text 
 r u cmng or u not cmng   
I am fine, r u fine  
my frnd is gr8, wll dn.  
 we r nt going tday   
I have a fever.

它应该像这样显示输出

 Words    Count

u         3
r         3
i         2
cmng      2
fine,     1
wll       1
have      1
fever.    1
not       1
tday      1
my        1
we        1
a         1
or        1
nt        1
going     1
fine      1
dn.       1
gr8,      1
frnd      1
am        1
is        1
dtype: int64

我使用此代码，但显示的输出错误

    text = train_dataset_male['comment_text']
    print(text)
    vectorizer = TfidfVectorizer()
    # tokenize and build vocab
    vectorizer.fit(text)
    # summarize
    print(vectorizer.vocabulary_)
    print(vectorizer.idf_)
    # encode document
    vector = vectorizer.transform([text[0]])
    # summarize encoded vector
    print(vector.shape)
    print(vector.toarray())

Python在标准库中有一个整洁的模块，称为“collections”，用于这类东西。在其中，您可以使用计数器，它最终成为一个字典，用于跟踪单个项，并统计它们在iterable（列表、元组等）中出现的次数

所以

从集合导入计数器
text_counter=计数器（数据集）
#访问“你”一词出现的时间
文本计数器。获取（“您”）

您的代码计算相同句子的数量，我想对所有数据中的单词进行计数和分类，让我们这样做吧。通过调用

split

并使用空格作为分隔符，您可以轻松地将示例应用于单词列表。所以它看起来像是我的句子分割（“”）