Python TF-IDF和弓技术不兼容吗？_Python_Nlp_Tf Idf_Tfidfvectorizer

Python TF-IDF和弓技术不兼容吗？

python nlp

Python TF-IDF和弓技术不兼容吗？,python,nlp,tf-idf,tfidfvectorizer,Python,Nlp,Tf Idf,Tfidfvectorizer,我研究过这些方法，但对此我有很大的怀疑。我认为这两种方法可以结合起来，我会解释得更好。我有一个csv文件（MY_DATA），其中包含来自社交网络的数千条评论，我想使用此数据集创建我的BoW，以创建评论情绪的分类模型（评论情绪是MY_DATA的另一个变量，有三种类型：正面、负面和中性）现在您已经看到了我的脚本，我想知道我是否正确使用了TF-IDF方法。我如何在我的案例中应用BoW方法？这两种方法是否不可避免地不兼容？来自您自己链接的文章：“术语频率（TF）基本上是BoW模型的输出”所以tf id

我研究过这些方法，但对此我有很大的怀疑。我认为这两种方法可以结合起来，我会解释得更好。我有一个csv文件（

MY_DATA

），其中包含来自社交网络的数千条评论，我想使用此数据集创建我的

BoW

，以创建评论情绪的

分类模型（评论情绪是MY_DATA
的另一个变量，有三种类型：正面、负面和中性）
现在您已经看到了我的脚本，我想知道我是否正确使用了TF-IDF方法。我如何在我的案例中应用BoW方法？这两种方法是否不可避免地不兼容？来自您自己链接的文章：“术语频率（TF）基本上是BoW模型的输出”所以tf idf从BOW开始，然后将idf添加到其中以使其更具信息性。换句话说，您不需要将BOW添加到tfidf中，因为它已经包含在Thank you中。非常感谢，只是为了确保这不是一个真正的编程问题，所以它可能更适合，但BOW和tf-idf一点也不兼容。事实上，不是F-IDF只是给出给朴素弓模型的标准加权方案。也许你可以做出学术上的区分，但出于所有意图和目的，TF-IDF是一种弓模型。准确地说，它是一种众所周知的弓加权方案，其中，出于信息检索目的，朴素计数并不理想。从你自己的文章链接d：“术语频率（tf）基本上是弓模型的输出”所以tf idf从BOW开始，然后将idf添加到其中以使其更具信息性。换句话说，您不需要将BOW添加到tfidf中，因为它已经包含在Thank you中。非常感谢，只是为了确保这不是一个真正的编程问题，所以它可能更适合，但BOW和tf-idf一点也不兼容。事实上，不是F-IDF只是给出给朴素BoW模型的标准加权方案。也许你可以做出学术上的区分，但出于所有意图和目的，TF-IDF是一种BoW模型。准确地说，它是一种众所周知的BoW加权方案，对于信息检索目的，朴素计数并不理想。
tf = TfidfVectorizer()
text_tf = tf.fit_transform(MY_DATA['comments'])
X_train, X_test, y_train, y_test = train_test_split(text_tf, MY_DATA['sentiment'], test_size=0.2)

#Classification model Multinomial Naive Bayes
clf = MultinomialNB().fit(X_train, y_train)
predicted = clf.predict(X_test)