Python中的字符串相似性度量_Python_Algorithm_String_Levenshtein Distance

Python中的字符串相似性度量

python algorithm string

Python中的字符串相似性度量,python,algorithm,string,levenshtein-distance,Python,Algorithm,String,Levenshtein Distance,我想找出两个字符串之间的相似性。佩奇有一些例子。Python实现了。在这些限制条件下，是否有更好的算法（希望还有python库）我想在字符串之间进行模糊匹配。例如，匹配（'Hello，All you peopl'，'Hello，All you peopl'）应该返回True 假阴性是可以接受的，假阳性是可以接受的，但极少数情况除外这是在非实时设置下完成的，因此速度不太重要 [编辑]我正在比较多字字符串对于我的情况，除了Levenshtein距离（或Levenshtein比率）之外的其他算法

我想找出两个字符串之间的相似性。佩奇有一些例子。Python实现了。在这些限制条件下，是否有更好的算法（希望还有python库）

我想在字符串之间进行模糊匹配。例如，匹配（'Hello，All you peopl'，'Hello，All you peopl'）应该返回True

假阴性是可以接受的，假阳性是可以接受的，但极少数情况除外

这是在非实时设置下完成的，因此速度不太重要

[编辑]我正在比较多字字符串

对于我的情况，除了Levenshtein距离（或Levenshtein比率）之外的其他算法会更好吗？

这就是你的意思吗

>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']

P> >谢菲尔德大学的字符串相似性度量有很大的资源。它有一个各种指标的列表（不仅仅是Levenshtein），并且有它们的开源实现。看起来它们中的许多应该很容易适应Python

以下是列表的一部分：

汉明距离
Levenshtein距离
Needleman-Wunch距离算法
还有更多

>>> import difflib
>>> a = 'Hello, All you people'
>>> b = 'hello, all You peopl'
>>> seq=difflib.SequenceMatcher(a=a.lower(), b=b.lower())
>>> seq.ratio()
0.97560975609756095

def similar(seq1, seq2):
    return difflib.SequenceMatcher(a=seq1.lower(), b=seq2.lower()).ratio() > 0.9

>>> similar(a, b)
True
>>> similar('Hello, world', 'Hi, world')
False

def spellcheck(self, sentence):
    #return ' '.join([difflib.get_close_matches(word, wordlist,1 , 0)[0] for word in sentence.split()])
    return ' '.join( [ sorted( { Levenshtein.ratio(x, word):x for x in wordlist }.items(), reverse=True)[0][1] for word in sentence.split() ] )

[3]

[4]

pip-install-python-Levenshtein

pip-install-distance

get_close_matches（'appel'，['ape'，'peach'，'puppy'））

import codecs, difflib, Levenshtein, distance

with codecs.open("titles.tsv","r","utf-8") as f:
    title_list = f.read().split("\n")[:-1]

    for row in title_list:

        sr      = row.lower().split("\t")

        diffl   = difflib.SequenceMatcher(None, sr[3], sr[4]).ratio()
        lev     = Levenshtein.ratio(sr[3], sr[4]) 
        sor     = 1 - distance.sorensen(sr[3], sr[4])
        jac     = 1 - distance.jaccard(sr[3], sr[4])

        print diffl, lev, sor, jac