Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/clojure/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 对于这种情况,我应该使用空间命名实体识别吗?_Nlp_Nltk_Spacy_Opennlp_Ner - Fatal编程技术网

Nlp 对于这种情况,我应该使用空间命名实体识别吗?

Nlp 对于这种情况,我应该使用空间命名实体识别吗?,nlp,nltk,spacy,opennlp,ner,Nlp,Nltk,Spacy,Opennlp,Ner,我有一套名字,一套固定的名字,可以扩展到50000个名字 “约翰”、“迈克”、“乔希”、“彼得”、“卡尔” 我有一个文件,这个文件是动态的。我需要找出这份文件是否有 是否使用预定义的名称 在spacy nlp中将一切定义为一个实体是正确的方法吗 在spacy nlp中将一切定义为一个实体是正确的方法吗 不,NER不是基于带有标记的大量值,而是作为包含值、标记和值位置的文本样本的数据集。一般来说,机器学习模型然后在数据集上进行训练,找到有助于在文档中标记名称的泛化 因此,您不能仅仅添加这些名称来训

我有一套名字,一套固定的名字,可以扩展到50000个名字

“约翰”、“迈克”、“乔希”、“彼得”、“卡尔”

我有一个文件,这个文件是动态的。我需要找出这份文件是否有 是否使用预定义的名称

在spacy nlp中将一切定义为一个实体是正确的方法吗

在spacy nlp中将一切定义为一个实体是正确的方法吗

不,NER不是基于带有标记的大量值,而是作为包含值、标记和值位置的文本样本的数据集。一般来说,机器学习模型然后在数据集上进行训练,找到有助于在文档中标记名称的泛化

因此,您不能仅仅添加这些名称来训练NER。你必须提供上下文

您可以尝试以下简单管道(考虑到这些名称有些常见):

  • 将名称加载到集合数据结构中
  • 使用您选择的NLP库逐句分析文档
  • 对于每个句子,找出其中Person类型的命名实体
  • 检查每个人是否都在姓名集中

  • 我知道您的目的是在文档中查找已知名称(从列表中)

    命名实体识别似乎对您没有用处


    相反,解决此问题的可扩展方法可以是Flashtext()。

    您可以发布您想要在其中查找匹配名称的文档样本吗?