Python包,用于在文件/url/string中查找预定义的关键字/标记

Python包,用于在文件/url/string中查找预定义的关键字/标记,python,keyword,stemming,Python,Keyword,Stemming,是否有任何python包可以获取关键字/标记列表,并将它们与给定的字符串/文件/url进行匹配 特别是使用词干和/或其他同义词匹配方式 i、 e.我预先保存的关键字: 滑雪, 自行车, 爬升 我的文本: 在山上滑雪很棒 应该用Ski 滑雪和山地自行车很有趣 应该贴上滑雪板和自行车的标签 如果我在某处有一个同义词文件映射到Bike到MTB MTB是一种很好的消磨时间的方式 应该标记自行车请参见(您也可以尝试不同的模块,例如) 您还可以使用中的测试包含特定字符串的句子: >>> '

是否有任何python包可以获取关键字/标记列表,并将它们与给定的字符串/文件/url进行匹配

特别是使用词干和/或其他同义词匹配方式

i、 e.我预先保存的关键字:

滑雪, 自行车, 爬升

我的文本:

在山上滑雪很棒

应该用
Ski

滑雪和山地自行车很有趣

应该贴上滑雪板和自行车的标签

如果我在某处有一个同义词文件映射到
Bike
MTB

MTB是一种很好的消磨时间的方式

应该标记自行车

请参见(您也可以尝试不同的模块,例如)

您还可以使用中的
测试包含特定字符串的句子:

>>> 'Ski' in 'Skiing in the mountains is great'
True
>>> 'Bike' in 'Skiing in the mountains is great'
False

我不知道有什么包可以做到这一点,但事实上,使用普通python这是非常简单的。使用re(regex)标准包。差不多

import re
key_words =['ski','bike','climb'] 
input = "Skiing and mountain biking is fun"

input_words = input.split()#split on space
[word.lower() for word in input_words]
input_tags =[]
for word in input_words:
   for key in key_words:
      if re.search(key,word):
         input_tags.append(key)

听起来像是一个家庭作业-请添加一个“家庭作业”标签,以便响应者知道在不复制粘贴代码的情况下提供有用的指导。至于词干分析,您是在寻找指向库的指针还是已经有了词干匹配功能?为同义词库链接干杯-我想可能是Woosh可以用来做的事情…代码中有多个错误:1)单词没有括在引号中,2)
输入被覆盖,3)不能在空字符串上拆分,4)
str
没有
lowercase()
方法(可能是
lower()
?),5)如果重新搜索(关键字,单词)
您也可以使用
if-in-word
(您不是作为
关键字创建正则表达式,顺便说一句),6)你的代码可以缩短很多。大多数都是正确的-但这是一个快速的伪代码,可以回答一个明显的家庭作业任务。并展示python是如何工作的。。