Python 我应该使用哪个字符串度量或NLP算法来查找不同URL中的子字符串_Python_String_Url

Python 我应该使用哪个字符串度量或NLP算法来查找不同URL中的子字符串

python string url

Python 我应该使用哪个字符串度量或NLP算法来查找不同URL中的子字符串,python,string,url,Python,String,Url,我试图找到的网址有用户提供的关键字 Eg. Keyword - 'Avengers' #URL1: www.xyzmovies.com/Avengers_2019/243564 #URL2: www.avengers.org/4r43435 #URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics 困难在于URL并没有单一的标准，关键字可以出现在URL中的任何地方。需要捕捉的网址有拼写错误太多哪种算法最适合在pytho

我试图找到的网址有用户提供的关键字

Eg. Keyword - 'Avengers' 
#URL1: www.xyzmovies.com/Avengers_2019/243564
#URL2: www.avengers.org/4r43435
#URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics

困难在于URL并没有单一的标准，关键字可以出现在URL中的任何地方。需要捕捉的网址有拼写错误太多

哪种算法最适合在python中执行此任务。

如果我理解正确，您可以使用

"keyword".lower() in url.lower()

如果关键字在URL中，则返回True，否则返回False。.lower（）确保结果不区分大小写。为了解释打字错误，我会去图书馆或图书馆。fuzzyfuzzy的部分比率非常适合这种情况，因为它特别关注部分字符串匹配，因此您的关键字“复仇者”将被视为与URL1的完美匹配，而“Avnegers”可能仍然会有很高的分数。

该任务似乎适合在python中使用正则表达式和

re

。拼写错误有多严重？

url中的“复仇者”是检查中的“复仇者”
是否在url中的测试。