Python 我应该使用哪个字符串度量或NLP算法来查找不同URL中的子字符串

Python 我应该使用哪个字符串度量或NLP算法来查找不同URL中的子字符串,python,string,url,Python,String,Url,我试图找到的网址有用户提供的关键字 Eg. Keyword - 'Avengers' #URL1: www.xyzmovies.com/Avengers_2019/243564 #URL2: www.avengers.org/4r43435 #URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics 困难在于URL并没有单一的标准,关键字可以出现在URL中的任何地方。需要捕捉的网址有拼写错误太多 哪种算法最适合在pytho

我试图找到的网址有用户提供的关键字

Eg. Keyword - 'Avengers' 
#URL1: www.xyzmovies.com/Avengers_2019/243564
#URL2: www.avengers.org/4r43435
#URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics
困难在于URL并没有单一的标准,关键字可以出现在URL中的任何地方。需要捕捉的网址有拼写错误太多


哪种算法最适合在python中执行此任务。

如果我理解正确,您可以使用

"keyword".lower() in url.lower()

如果关键字在URL中,则返回True,否则返回False。.lower()确保结果不区分大小写。为了解释打字错误,我会去图书馆或图书馆。fuzzyfuzzy的部分比率非常适合这种情况,因为它特别关注部分字符串匹配,因此您的关键字“复仇者”将被视为与URL1的完美匹配,而“Avnegers”可能仍然会有很高的分数。

该任务似乎适合在python中使用正则表达式和
re
。拼写错误有多严重?
url中的“复仇者”是检查
中的“复仇者”
是否在url中的测试。