Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/332.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何训练以线号为特征的空间模型?_Python_Machine Learning_Nlp_Spacy_Ner - Fatal编程技术网

Python 如何训练以线号为特征的空间模型?

Python 如何训练以线号为特征的空间模型?,python,machine-learning,nlp,spacy,ner,Python,Machine Learning,Nlp,Spacy,Ner,我是nlp的新手,我正在做一个从名片中提取人名和公司名的项目 为了提取文本,我使用了一个像样的OCR函数,我制作了这样的函数: Sunny J. Mistry Product Design Engineer Apple 5 Infinite Loop, MS 305-1PH Cupertino, CA 95014 T 408 974-5339 M 925 548-4585 sjmistry@apple.com www.apple.com 起初我试着用默认的英语NER逐行处理这个工作,很快我

我是nlp的新手,我正在做一个从名片中提取人名和公司名的项目

为了提取文本,我使用了一个像样的OCR函数,我制作了这样的函数:

Sunny J. Mistry
Product Design Engineer

Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014

T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com
起初我试着用默认的英语NER逐行处理这个工作,很快我意识到这是不够的

最终,我决定创建自己的自定义NER,该NER将使用有关文本位置的信息进行培训

我在官方文档中没有找到关于如何为训练数据(如行号)添加自定义特征的任何信息,但我发现了这一点以及Matthew Honnibal的建议,即使用多任务目标训练具有服装特征的模特

我还是不确定:

  • 培训数据应该是什么样子的

  • 如何使用spaCy的API向培训过程中添加自定义功能

  • 多任务目标是训练这种模型的正确工具吗


  • 回答我自己的问题:

    我没有找到一个正式的方法来实现这种任务,但最终我决定在一个包含200张图像的普通名片数据集上训练一个模型。我使用谷歌OCR从每张图像中提取文本,并使用post中描述的工具对其进行注释

    它就像一个魔咒。

    您可以使用spacy库中的ner.add_标签(label)来添加您自己的标签,然后使用您的名片培训数据为更新的型号进行培训