Python 希伯来语空间句子标记化错误

Python 希伯来语空间句子标记化错误,python,spacy,Python,Spacy,试着对希伯来语使用空间句子标记化 import spacy nlp = spacy.load('he') doc = nlp(text) sents = list(doc.sents) 我得到: Warning: no model found for 'he' Only loading the 'he' tokenizer. Traceback (most recent call last): ... sents = list(doc.sents)

试着对希伯来语使用空间句子标记化

import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)
我得到:

    Warning: no model found for 'he'

    Only loading the 'he' tokenizer.

Traceback (most recent call last):   
  ...
    sents = list(doc.sents)   
  File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
    raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation:  https://spacy.io/docs/usage
怎么办?

斯帕西目前的规模非常小。它目前只有希伯来语的单词标记,在空白处大致分开,有一些额外的规则和例外。您想要的句子标记化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子的结束位置和另一个句子的开始位置。这些模型需要大量的带标签的训练数据,因此可以用于比标记化更少的语言

最初的消息是告诉您它可以进行标记化,这不需要模型,然后您得到的错误是由于没有模型来拆分句子、执行NER或POS等

您可以查看希伯来语NLP的其他资源。如果您找到了足够多的正确格式的标记数据,并且感到雄心勃勃,那么您可以使用所描述的概述来训练自己的希伯来语空间模型