Nlp 使用SpaCy创建以位置为中心的自定义NER

Nlp 使用SpaCy创建以位置为中心的自定义NER,nlp,spacy,named-entity-recognition,Nlp,Spacy,Named Entity Recognition,因此,我正在创建一个系统,在这个系统中,我需要能够获取通过OCR处理的世界各地餐馆/杂货店收据上的位置信息(因此我正在处理原始文本) 我选择使用SpaCy的NER引擎来检测位置。然而,现有的en_core\u web\u sm模型仅适用于检测有限的位置集(GPE,如纽约和华盛顿等)。。。这是一种预期,因为它已经在涉及广播新闻等的数据集上进行了训练 现在,我有了一个数据集,其中有位于各个城市的餐馆的信息。第一个列包含完整地址的信息,另一个是城市。 像 我目前只对探测城市级别的位置感兴趣(不要再往

因此,我正在创建一个系统,在这个系统中,我需要能够获取通过OCR处理的世界各地餐馆/杂货店收据上的位置信息(因此我正在处理原始文本)

我选择使用SpaCy的NER引擎来检测位置。然而,现有的
en_core\u web\u sm
模型仅适用于检测有限的位置集(
GPE
,如纽约和华盛顿等)。。。这是一种预期,因为它已经在涉及广播新闻等的数据集上进行了训练

现在,我有了一个数据集,其中有位于各个城市的餐馆的信息。第一个
包含完整
地址
的信息,另一个是
城市
。 像

我目前只对探测城市级别的位置感兴趣(不要再往下了)。这就是为什么我对进一步培训我的
spaCy
模型感兴趣的原因

我的问题是,


使用现有的
预先培训的
模型(在我的例子中是
en\u core\u web\u sm
)可以吗?当我进一步使用上述数据集对其进行培训时,该模型将进行微调?

请将您的文章范围限制在单个问题上,请参见。在一篇帖子中提供大量的问题会大大降低你找到满意答案的机会。相反,试着分解你的个人问题,展示你在子问题上的尝试,然后从那里开始努力找到一个完整的答案。除了上述问题,为什么不尝试用正则表达式解决这个问题,有什么限制吗?正如@Denninger指出的那样-NLP和NER在这里不起作用-Spacy用于分析句子、段落等中的文本数据。您将很难为您的用例微调Spacy NER。数据的格式是否总是那么干净?如果是这样,不要使用统计模型。使用正则表达式或something@dennlinger“我需要能够获得世界各地通过OCR处理的餐馆/杂货店收据上的位置信息(因此我正在处理原始文本)。”我认为regex在这里不起作用。这对正则表达式来说太复杂了,因为收据(全球各地)没有任何一致的模式,我也不想创建一个hack。