Edit 如何将TF-IDF与编辑距离或Jaro-winkler距离相结合

Edit 如何将TF-IDF与编辑距离或Jaro-winkler距离相结合,edit,classification,similarity,tf-idf,Edit,Classification,Similarity,Tf Idf,我正在寻找提高TF-IDF称重方案在字符串匹配(相似性)中准确性的方法。主要问题是TF-IDF对stings中的印刷错误很敏感,大多数大型数据集都有印刷错误。 我意识到编辑距离的变体(基于字符的相似性度量——Levinshtein、affine gas、Jaro和Jaro winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于字符串中的单词顺序错误 因此,我想使用编辑距离校正功能来提高TF-IDF的准确性 任何关于如何应对这一挑战的想法都将受到高度赞赏 提前谢谢 CMU研究人员在

我正在寻找提高TF-IDF称重方案在字符串匹配(相似性)中准确性的方法。主要问题是TF-IDF对stings中的印刷错误很敏感,大多数大型数据集都有印刷错误。 我意识到编辑距离的变体(基于字符的相似性度量——Levinshtein、affine gas、Jaro和Jaro winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于字符串中的单词顺序错误

因此,我想使用编辑距离校正功能来提高TF-IDF的准确性

任何关于如何应对这一挑战的想法都将受到高度赞赏


提前谢谢

CMU研究人员在2003年发表了一篇论文,他们解释了如何将TFIDF与Jaro Winkler结合起来:

他们的Java代码也可以在sourceforge上作为secondString项目提供:

以下是指向Javadocs的链接:

第二个字符串项目页面: