Machine learning 如何使用TF-IDF和使用sift的可视文字袋

Machine learning 如何使用TF-IDF和使用sift的可视文字袋,machine-learning,image-processing,classification,Machine Learning,Image Processing,Classification,我使用与此链接相同的方法: 如链接中所述,TD IDF可用于从可视文字包中删除不太重要的“可视文字”。然而,在线查看之后,TD-IDF似乎只用于文本特征提取。(例如,sklearn.feature_extraction.text.tfidf转换器) 有没有一种简单的方法可以将TF-IDF用于图像分类而不是文本分类?我怀疑它对于图像来说是否足够标准,但自己计算它也很容易: 对于任何“视觉单词”,文档频率(DF)是包含该“视觉单词”的图像数除以图像总数。IDF是该值的倒数 特定图像中“视觉单词”的

我使用与此链接相同的方法:

如链接中所述,TD IDF可用于从可视文字包中删除不太重要的“可视文字”。然而,在线查看之后,TD-IDF似乎只用于文本特征提取。(例如,sklearn.feature_extraction.text.tfidf转换器)


有没有一种简单的方法可以将TF-IDF用于图像分类而不是文本分类?

我怀疑它对于图像来说是否足够标准,但自己计算它也很容易:

  • 对于任何“视觉单词”,文档频率(DF)是包含该“视觉单词”的图像数除以图像总数。IDF是该值的倒数
  • 特定图像中“视觉单词”的“术语频率”(TF)是“单词”在图像中出现的次数除以该图像中“单词”的总数
现在只需应用以下公式:TFIDF=TF*log(IDF)

或者,您可以将每个图像表示为一个伪句子,其中字符串表示视觉单词,然后对伪句子集使用标准的
TfidfTransformer
。但这可能是更多的工作,没有什么好处