spacy模型en_core_web_sm不检测语言实体

spacy模型en_core_web_sm不检测语言实体,spacy,Spacy,我写了一个小程序从文本中提取语言实体。我使用的是“en_core_web_sm”,但它确实能从下面的句子中检测到除日期之外的任何内容 从spacy文档中,我可以看到“en_core_web_sm”支持语言实体 我认为我犯了一些明显的错误。有人能指出我做错了什么吗 nlp2 = spacy.load("en_core_web_sm") test_text = "korean chinese english spanish 2019-2-13 india america 2 year

我写了一个小程序从文本中提取语言实体。我使用的是“en_core_web_sm”,但它确实能从下面的句子中检测到除日期之外的任何内容

从spacy文档中,我可以看到“en_core_web_sm”支持语言实体

我认为我犯了一些明显的错误。有人能指出我做错了什么吗

   nlp2 = spacy.load("en_core_web_sm")
    test_text = "korean chinese  english spanish 2019-2-13 india america 2 years 6 months united states"
    doc2 = nlp2(test_text)
    for ent in doc2.ents:
        print(ent.label_, ent.text)
        print("\n")

Output
DATE 2 years 6 months

您正在使用哪个版本的spaCy?如果我使用当前最新版本2.2.4运行此代码段,我将得到以下打印结果:

朝鲜族

诺普中文

语言英语

印度GPE

GPE美国

日期2年6个月

正如您所见,预先训练的模型
en_core\u web\u sm
确实能够识别
语言
实体


作为一个快速提示:spaCy的NER模块在实际句子中效果更好,这正是它所训练的。从我的结果中,您可以看到它也适用于非语法的单词序列,就像在您的输入中一样,但它会犯更多错误,因为没有语法上下文。

我使用的是2.2.3版本的Hanks进行检查