Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/unity3d/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python中是否有用于NER的单词形状特征库?_Python_String_Nlp_Named Entity Recognition - Fatal编程技术网

python中是否有用于NER的单词形状特征库?

python中是否有用于NER的单词形状特征库?,python,string,nlp,named-entity-recognition,Python,String,Nlp,Named Entity Recognition,作为python的初学者,我正在尝试构建自己的命名实体识别器,众所周知,单词形状特征在NER中特别重要。是否存在定义这些功能的已知库?例如,这些功能的一个版本用x表示小写字母,用x表示大写字母,用d表示数字,并保留标点符号,将DC10-30映射到XX dd dd,将I.M.F映射到x.x.x. 因此,我寻找一个库,它将通过应用这些众所周知的功能来改进我的识别器。如果没有这样的库,我如何提取一个单词的词形特征 wordshape("D-Day") = X-Xxx 提前感谢。您可以使用正则表达式解

作为python的初学者,我正在尝试构建自己的命名实体识别器,众所周知,单词形状特征在NER中特别重要。是否存在定义这些功能的已知库?例如,这些功能的一个版本用x表示小写字母,用x表示大写字母,用d表示数字,并保留标点符号,将DC10-30映射到XX dd dd,将I.M.F映射到x.x.x.

因此,我寻找一个库,它将通过应用这些众所周知的功能来改进我的识别器。如果没有这样的库,我如何提取一个单词的词形特征

wordshape("D-Day") = X-Xxx

提前感谢。

您可以使用正则表达式解决此问题。正则表达式的Python标准库是
re

下面的功能可以实现您想要的功能

def wordshape(text):
    import re
    t1 = re.sub('[A-Z]', 'X',text)
    t2 = re.sub('[a-z]', 'x', t1)
    return re.sub('[0-9]', 'd', t2)

>>> wordshape("DC10-30")
'XXdd-dd'
>>> wordshape("D-Day")
'X-Xxx'
>>> wordshape('I.M.F')
'X.X.X'

您可以使用正则表达式解决这个问题。正则表达式的Python标准库是
re

下面的功能可以实现您想要的功能

def wordshape(text):
    import re
    t1 = re.sub('[A-Z]', 'X',text)
    t2 = re.sub('[a-z]', 'x', t1)
    return re.sub('[0-9]', 'd', t2)

>>> wordshape("DC10-30")
'XXdd-dd'
>>> wordshape("D-Day")
'X-Xxx'
>>> wordshape('I.M.F')
'X.X.X'