Python 如何训练以线号为特征的空间模型？_Python_Machine Learning_Nlp_Spacy_Ner

Python 如何训练以线号为特征的空间模型？

python machine-learning nlp

Python 如何训练以线号为特征的空间模型？,python,machine-learning,nlp,spacy,ner,Python,Machine Learning,Nlp,Spacy,Ner,我是nlp的新手，我正在做一个从名片中提取人名和公司名的项目为了提取文本，我使用了一个像样的OCR函数，我制作了这样的函数： Sunny J. Mistry Product Design Engineer Apple 5 Infinite Loop, MS 305-1PH Cupertino, CA 95014 T 408 974-5339 M 925 548-4585 sjmistry@apple.com www.apple.com 起初我试着用默认的英语NER逐行处理这个工作，很快我

我是nlp的新手，我正在做一个从名片中提取人名和公司名的项目

为了提取文本，我使用了一个像样的OCR函数，我制作了这样的函数：

Sunny J. Mistry
Product Design Engineer

Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014

T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com

起初我试着用默认的英语NER逐行处理这个工作，很快我意识到这是不够的

最终，我决定创建自己的自定义NER，该NER将使用有关文本位置的信息进行培训

我在官方文档中没有找到关于如何为训练数据（如行号）添加自定义特征的任何信息，但我发现了这一点以及Matthew Honnibal的建议，即使用多任务目标训练具有服装特征的模特

我还是不确定：

培训数据应该是什么样子的

如何使用spaCy的API向培训过程中添加自定义功能

多任务目标是训练这种模型的正确工具吗

回答我自己的问题:

我没有找到一个正式的方法来实现这种任务，但最终我决定在一个包含200张图像的普通名片数据集上训练一个模型。我使用谷歌OCR从每张图像中提取文本，并使用post中描述的工具对其进行注释

它就像一个魔咒。

您可以使用spacy库中的ner.add_标签（label）来添加您自己的标签，然后使用您的名片培训数据为更新的型号进行培训