python中是否有用于NER的单词形状特征库?
作为python的初学者,我正在尝试构建自己的命名实体识别器,众所周知,单词形状特征在NER中特别重要。是否存在定义这些功能的已知库?例如,这些功能的一个版本用x表示小写字母,用x表示大写字母,用d表示数字,并保留标点符号,将DC10-30映射到XX dd dd,将I.M.F映射到x.x.x.python中是否有用于NER的单词形状特征库?,python,string,nlp,named-entity-recognition,Python,String,Nlp,Named Entity Recognition,作为python的初学者,我正在尝试构建自己的命名实体识别器,众所周知,单词形状特征在NER中特别重要。是否存在定义这些功能的已知库?例如,这些功能的一个版本用x表示小写字母,用x表示大写字母,用d表示数字,并保留标点符号,将DC10-30映射到XX dd dd,将I.M.F映射到x.x.x. 因此,我寻找一个库,它将通过应用这些众所周知的功能来改进我的识别器。如果没有这样的库,我如何提取一个单词的词形特征 wordshape("D-Day") = X-Xxx 提前感谢。您可以使用正则表达式解
因此,我寻找一个库,它将通过应用这些众所周知的功能来改进我的识别器。如果没有这样的库,我如何提取一个单词的词形特征
wordshape("D-Day") = X-Xxx
提前感谢。您可以使用正则表达式解决此问题。正则表达式的Python标准库是
re
下面的功能可以实现您想要的功能
def wordshape(text):
import re
t1 = re.sub('[A-Z]', 'X',text)
t2 = re.sub('[a-z]', 'x', t1)
return re.sub('[0-9]', 'd', t2)
>>> wordshape("DC10-30")
'XXdd-dd'
>>> wordshape("D-Day")
'X-Xxx'
>>> wordshape('I.M.F')
'X.X.X'
您可以使用正则表达式解决这个问题。正则表达式的Python标准库是
re
下面的功能可以实现您想要的功能
def wordshape(text):
import re
t1 = re.sub('[A-Z]', 'X',text)
t2 = re.sub('[a-z]', 'x', t1)
return re.sub('[0-9]', 'd', t2)
>>> wordshape("DC10-30")
'XXdd-dd'
>>> wordshape("D-Day")
'X-Xxx'
>>> wordshape('I.M.F')
'X.X.X'