Python 如何训练以线号为特征的空间模型?
我是nlp的新手,我正在做一个从名片中提取人名和公司名的项目 为了提取文本,我使用了一个像样的OCR函数,我制作了这样的函数:Python 如何训练以线号为特征的空间模型?,python,machine-learning,nlp,spacy,ner,Python,Machine Learning,Nlp,Spacy,Ner,我是nlp的新手,我正在做一个从名片中提取人名和公司名的项目 为了提取文本,我使用了一个像样的OCR函数,我制作了这样的函数: Sunny J. Mistry Product Design Engineer Apple 5 Infinite Loop, MS 305-1PH Cupertino, CA 95014 T 408 974-5339 M 925 548-4585 sjmistry@apple.com www.apple.com 起初我试着用默认的英语NER逐行处理这个工作,很快我
Sunny J. Mistry
Product Design Engineer
Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014
T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com
起初我试着用默认的英语NER逐行处理这个工作,很快我意识到这是不够的
最终,我决定创建自己的自定义NER,该NER将使用有关文本位置的信息进行培训
我在官方文档中没有找到关于如何为训练数据(如行号)添加自定义特征的任何信息,但我发现了这一点以及Matthew Honnibal的建议,即使用多任务目标训练具有服装特征的模特
我还是不确定:
回答我自己的问题: 我没有找到一个正式的方法来实现这种任务,但最终我决定在一个包含200张图像的普通名片数据集上训练一个模型。我使用谷歌OCR从每张图像中提取文本,并使用post中描述的工具对其进行注释 它就像一个魔咒。您可以使用spacy库中的ner.add_标签(label)来添加您自己的标签,然后使用您的名片培训数据为更新的型号进行培训