spacy模型en_core_web_sm不检测语言实体
我写了一个小程序从文本中提取语言实体。我使用的是“en_core_web_sm”,但它确实能从下面的句子中检测到除日期之外的任何内容 从spacy文档中,我可以看到“en_core_web_sm”支持语言实体 我认为我犯了一些明显的错误。有人能指出我做错了什么吗spacy模型en_core_web_sm不检测语言实体,spacy,Spacy,我写了一个小程序从文本中提取语言实体。我使用的是“en_core_web_sm”,但它确实能从下面的句子中检测到除日期之外的任何内容 从spacy文档中,我可以看到“en_core_web_sm”支持语言实体 我认为我犯了一些明显的错误。有人能指出我做错了什么吗 nlp2 = spacy.load("en_core_web_sm") test_text = "korean chinese english spanish 2019-2-13 india america 2 year
nlp2 = spacy.load("en_core_web_sm")
test_text = "korean chinese english spanish 2019-2-13 india america 2 years 6 months united states"
doc2 = nlp2(test_text)
for ent in doc2.ents:
print(ent.label_, ent.text)
print("\n")
Output
DATE 2 years 6 months
您正在使用哪个版本的spaCy?如果我使用当前最新版本2.2.4运行此代码段,我将得到以下打印结果: 朝鲜族 诺普中文 语言英语 印度GPE GPE美国 日期2年6个月 正如您所见,预先训练的模型
en_core\u web\u sm
确实能够识别语言
实体
作为一个快速提示:spaCy的NER模块在实际句子中效果更好,这正是它所训练的。从我的结果中,您可以看到它也适用于非语法的单词序列,就像在您的输入中一样,但它会犯更多错误,因为没有语法上下文。我使用的是2.2.3版本的Hanks进行检查