TF-IDF和TF在SVM线性核中的差异_Svm_Document Classification_Tf Idf

TF-IDF和TF在SVM线性核中的差异

TF-IDF和TF在SVM线性核中的差异,svm,document-classification,tf-idf,Svm,Document Classification,Tf Idf,因为IDF是一个常量。一维中的所有值乘以一个常量在SVM线性核中，结果会有所不同？您最初的问题没有真正意义。你混淆了两个不同的世界： 1) 2）：支持向量机的最简单方法（实际上用于文本） TF和TF/IDF的区别在于是否使用了词汇的语料库频率。TF/IDF是一个更好的选择，独立于分类器仅使用TF，我们并不真正关心一个词是否常见。因此，像冠词这样的常用词即使没有提供真实信息，也会获得很大的权重在TF/IDF中，一个词在语料库中出现的频率越高，其权重越小。因此，像冠词这样的普通词的权重很

因为IDF是一个常量。一维中的所有值乘以一个常量

在SVM线性核中，结果会有所不同？

您最初的问题没有真正意义。你混淆了两个不同的世界： 1) 2）：支持向量机的最简单方法（实际上用于文本）

TF和TF/IDF的区别在于是否使用了词汇的语料库频率。TF/IDF是一个更好的选择，独立于分类器

仅使用TF，我们并不真正关心一个词是否常见。因此，像冠词这样的常用词即使没有提供真实信息，也会获得很大的权重

在TF/IDF中，一个词在语料库中出现的频率越高，其权重越小。因此，像冠词这样的普通词的权重很小，而被认为承载更多信息的稀有词的权重更大

注意：在上面的例子中，“物品”通常在预处理步骤中移除

你最初的问题没有真正意义。你混淆了两个不同的世界： 1) 2）：支持向量机的最简单方法（实际上用于文本）

TF和TF/IDF的区别在于是否使用了词汇的语料库频率。TF/IDF是一个更好的选择，独立于分类器

仅使用TF，我们并不真正关心一个词是否常见。因此，像冠词这样的常用词即使没有提供真实信息，也会获得很大的权重

在TF/IDF中，一个词在语料库中出现的频率越高，其权重越小。因此，像冠词这样的普通词的权重很小，而被认为承载更多信息的稀有词的权重更大

注意：在上面的例子中，“物品”通常在预处理步骤中移除

你能告诉我svm线性核中tfidf权重和tf权重的区别吗？你能告诉我svm线性核中tfidf权重和tf权重的区别吗？你还没有回答这个问题！OP的意思是，每个单词的TF向量和每个单词的TFIDF向量之间的差异只是每个属性的线性缩放。如果然后使用线性分类器，如线性回归或线性支持向量机，则缩放不会产生任何差异！你还没有回答这个问题！OP的意思是，每个单词的TF向量和每个单词的TFIDF向量之间的差异只是每个属性的线性缩放。如果然后使用线性分类器，如线性回归或线性支持向量机，则缩放不会产生任何差异！