Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
接受;接近比赛“;在python函数中使用字符串时?_Python_String_Nlp_Fuzzy Comparison_Stringdist - Fatal编程技术网

接受;接近比赛“;在python函数中使用字符串时?

接受;接近比赛“;在python函数中使用字符串时?,python,string,nlp,fuzzy-comparison,stringdist,Python,String,Nlp,Fuzzy Comparison,Stringdist,我尝试使用最短路径函数来查找图形中字符串之间的距离。问题是,有时我想计算一些非常接近的匹配。例如,我希望“通信”算作“通信”,或“网络设备”算作“网络设备”。在python中有没有实现这一点的方法?(例如,提取单词的根,或者计算字符串距离,或者可能是一个已经有单词形式关系的python库,比如复数/动名词/拼写错误/等等)我现在的问题是,我的过程只有在数据库中的每个项都有精确匹配时才起作用,这很难保持干净 例如: List_of_tags_in_graph = ['A', 'list', 'of

我尝试使用最短路径函数来查找图形中字符串之间的距离。问题是,有时我想计算一些非常接近的匹配。例如,我希望“通信”算作“通信”,或“网络设备”算作“网络设备”。在python中有没有实现这一点的方法?(例如,提取单词的根,或者计算字符串距离,或者可能是一个已经有单词形式关系的python库,比如复数/动名词/拼写错误/等等)我现在的问题是,我的过程只有在数据库中的每个项都有精确匹配时才起作用,这很难保持干净

例如:

List_of_tags_in_graph = ['A', 'list', 'of', 'tags', 'in', 'graph']

given_tag = 'lists'

if min_fuzzy_string_distance_measure(given_tag, List_of_tags_in_graph) < threshold :
     index_of_min = index_of_min_fuzzy_match(given_tag, List_of_tags_in_graph)
     given_tag = List_of_tags_in_graph[index_of_min]

#... then use given_tag in the graph calculation because now I know it matches ...
List_of_tags_in_graph=['A','List','of','tags','in','graph']
给定的_标记='lists'
如果最小模糊字符串距离度量(给定标签,在图表中列出标签)<阈值:
索引\u of \u min=索引\u of \u min\u fuzzy\u match(给定\u标记,在\u图中列出\u标记\u)
给定的标签=图表中标签列表[最小索引]
#... 然后在图形计算中使用给定的_标记,因为现在我知道它匹配。。。

有没有想过简单或快速的方法来做到这一点?或者,也许可以用另一种方式来考虑接受接近对手的强项。。。或者在字符串不匹配时更好地处理错误?

尝试使用nltk WorldNetLemmatizer,它旨在提取单词的词根

尝试使用nltk WorldNetLemmatizer,它旨在提取单词的词根

这对我想做的很有效。。。谢谢(尽管通过我公司的防火墙下载所需的wordnet词典非常痛苦)这对我想做的事情来说非常有效。。。谢谢(尽管通过我公司的防火墙下载所需的wordnet词典非常痛苦)