Machine learning 将tf idf用于情绪分析任务等分类任务是否正确?

Machine learning 将tf idf用于情绪分析任务等分类任务是否正确?,machine-learning,document-classification,Machine Learning,Document Classification,我经常看到人们在文本分类任务中使用tf-idf向量化,比如情感分析。根据我的理解,它会对出现在很多文档中的单词的分数进行惩罚。(与文档频率相反)通常我们会忽略df超过0.5的单词 但是,假设我在做情绪分析,我有一个词出现在+ve评论的每个文档中,在-ve评论的文档中出现的次数为零或很少。所以,这个词对于我的分类器来说是一个很好的指示器,高文档频率明确地指向一个特定的类别。因此,在我看来,使用惩罚高文档频率是违反直觉的 那么,使用tf idf矩阵进行文本分类任务是一个好主意吗 tf-idf矢量只是

我经常看到人们在文本分类任务中使用tf-idf向量化,比如情感分析。根据我的理解,它会对出现在很多文档中的单词的分数进行惩罚。(与文档频率相反)通常我们会忽略df超过0.5的单词

但是,假设我在做情绪分析,我有一个词出现在+ve评论的每个文档中,在-ve评论的文档中出现的次数为零或很少。所以,这个词对于我的分类器来说是一个很好的指示器,高文档频率明确地指向一个特定的类别。因此,在我看来,使用惩罚高文档频率是违反直觉的


那么,使用tf idf矩阵进行文本分类任务是一个好主意吗

tf-idf矢量只是一种矢量器。你可以试试其他的。上面的场景是可能的,但您会发现机器学习更多地是关于真实数据集,而不是理论保证

实际上tf idf工作得很好,但它与计数矢量器并没有根本区别。此外,还有十几种不同的方法专门对tf和idf组件进行加权,以增强某些单词分布的稳健性,如您在上面提出的那些


在机器学习中,你不应该想到“好”或“坏”的想法,你应该运行一个实验,确定对模型性能的影响。

tf-idf向量只是一种向量器。你可以试试其他的。上面的场景是可能的,但您会发现机器学习更多地是关于真实数据集,而不是理论保证

实际上tf idf工作得很好,但它与计数矢量器并没有根本区别。此外,还有十几种不同的方法专门对tf和idf组件进行加权,以增强某些单词分布的稳健性,如您在上面提出的那些


在机器学习中,你不应该想到“好”或“坏”的想法,你应该运行一个实验,并确定对模型性能的影响。

首先不要忽略高于0.5 idf的术语进行分类

这取决于你如何建立+ve。如果该单词出现在每个文档中,并且您将每次出现的频率计算为频率,那么TF到IDF就是一个wash(如果您在相同的基础上规范化TF和IDF)。您通常不会在相同的基础上规范化tf和idf,但一个训练集中的高tf仍然不会被idf完全淘汰


您可能想先看看朴素贝叶斯(naivebayes)

不要忽略高于0.5idf的分类术语

这取决于你如何建立+ve。如果该单词出现在每个文档中,并且您将每次出现的频率计算为频率,那么TF到IDF就是一个wash(如果您在相同的基础上规范化TF和IDF)。您通常不会在相同的基础上规范化tf和idf,但一个训练集中的高tf仍然不会被idf完全淘汰


您可能想看看NaiveBayes

tf idf背后的理念是识别特定于您试图识别的文档的单词。如果您想区分一组文档,那么在一个文档中多次出现而在任何其他文档中从未出现过的单词都非常有损名誉


在这里,如果你想应用同样的哲学,它将转化为单词的力量来区分积极和消极的类别。因此,您将对两个类都通用的单词进行惩罚。但实际上,许多算法都会隐式地这样做。例如,如果您使用朴素贝叶斯,它将在训练时检测这些单词并给出适当的分数

tf idf背后的理念是识别特定于您试图辨别的文档的单词。如果您想区分一组文档,那么在一个文档中多次出现而在任何其他文档中从未出现过的单词都非常有损名誉


在这里,如果你想应用同样的哲学,它将转化为单词的力量来区分积极和消极的类别。因此,您将对两个类都通用的单词进行惩罚。但实际上,许多算法都会隐式地这样做。例如,如果您使用朴素贝叶斯,它将在训练时检测这些单词并给出适当的分数

洗衣服是什么意思?对于“你可能想看看朴素贝叶斯”,你是否建议放弃朴素贝叶斯?Wash=取消。看=考虑。洗涤是什么意思?对于“你可能想看看朴素贝叶斯”,你是否建议放弃朴素贝叶斯?Wash=取消。考虑=考虑。