Edit 如何将TF-IDF与编辑距离或Jaro-winkler距离相结合
我正在寻找提高TF-IDF称重方案在字符串匹配(相似性)中准确性的方法。主要问题是TF-IDF对stings中的印刷错误很敏感,大多数大型数据集都有印刷错误。 我意识到编辑距离的变体(基于字符的相似性度量——Levinshtein、affine gas、Jaro和Jaro winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于字符串中的单词顺序错误 因此,我想使用编辑距离校正功能来提高TF-IDF的准确性 任何关于如何应对这一挑战的想法都将受到高度赞赏Edit 如何将TF-IDF与编辑距离或Jaro-winkler距离相结合,edit,classification,similarity,tf-idf,Edit,Classification,Similarity,Tf Idf,我正在寻找提高TF-IDF称重方案在字符串匹配(相似性)中准确性的方法。主要问题是TF-IDF对stings中的印刷错误很敏感,大多数大型数据集都有印刷错误。 我意识到编辑距离的变体(基于字符的相似性度量——Levinshtein、affine gas、Jaro和Jaro winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于字符串中的单词顺序错误 因此,我想使用编辑距离校正功能来提高TF-IDF的准确性 任何关于如何应对这一挑战的想法都将受到高度赞赏 提前谢谢 CMU研究人员在
提前谢谢 CMU研究人员在2003年发表了一篇论文,他们解释了如何将TFIDF与Jaro Winkler结合起来: 他们的Java代码也可以在sourceforge上作为secondString项目提供: 以下是指向Javadocs的链接: 第二个字符串项目页面: