Python TF-IDF和弓技术不兼容吗?

Python TF-IDF和弓技术不兼容吗?,python,nlp,tf-idf,tfidfvectorizer,Python,Nlp,Tf Idf,Tfidfvectorizer,我研究过这些方法,但对此我有很大的怀疑。我认为这两种方法可以结合起来,我会解释得更好。我有一个csv文件(MY_DATA),其中包含来自社交网络的数千条评论,我想使用此数据集创建我的BoW,以创建评论情绪的分类模型(评论情绪是MY_DATA的另一个变量,有三种类型:正面、负面和中性) 现在您已经看到了我的脚本,我想知道我是否正确使用了TF-IDF方法。我如何在我的案例中应用BoW方法?这两种方法是否不可避免地不兼容?来自您自己链接的文章:“术语频率(TF)基本上是BoW模型的输出”所以tf id

我研究过这些方法,但对此我有很大的怀疑。我认为这两种方法可以结合起来,我会解释得更好。我有一个csv文件(
MY_DATA
),其中包含来自社交网络的数千条评论,我想使用此数据集创建我的
BoW
,以创建评论情绪的
分类模型(评论情绪是
MY_DATA
的另一个变量,有三种类型:正面、负面和中性)


现在您已经看到了我的脚本,我想知道我是否正确使用了TF-IDF方法。我如何在我的案例中应用BoW方法?这两种方法是否不可避免地不兼容?

来自您自己链接的文章:“术语频率(TF)基本上是BoW模型的输出”所以tf idf从BOW开始,然后将idf添加到其中以使其更具信息性。换句话说,您不需要将BOW添加到tfidf中,因为它已经包含在Thank you中。非常感谢,只是为了确保这不是一个真正的编程问题,所以它可能更适合,但BOW和tf-idf一点也不兼容。事实上,不是F-IDF只是给出给朴素弓模型的标准加权方案。也许你可以做出学术上的区分,但出于所有意图和目的,TF-IDF是一种弓模型。准确地说,它是一种众所周知的弓加权方案,其中,出于信息检索目的,朴素计数并不理想。从你自己的文章链接d:“术语频率(tf)基本上是弓模型的输出”所以tf idf从BOW开始,然后将idf添加到其中以使其更具信息性。换句话说,您不需要将BOW添加到tfidf中,因为它已经包含在Thank you中。非常感谢,只是为了确保这不是一个真正的编程问题,所以它可能更适合,但BOW和tf-idf一点也不兼容。事实上,不是F-IDF只是给出给朴素BoW模型的标准加权方案。也许你可以做出学术上的区分,但出于所有意图和目的,TF-IDF是一种BoW模型。准确地说,它是一种众所周知的BoW加权方案,对于信息检索目的,朴素计数并不理想。
tf = TfidfVectorizer()
text_tf = tf.fit_transform(MY_DATA['comments'])
X_train, X_test, y_train, y_test = train_test_split(text_tf, MY_DATA['sentiment'], test_size=0.2)

#Classification model Multinomial Naive Bayes
clf = MultinomialNB().fit(X_train, y_train)
predicted = clf.predict(X_test)