Nlp 你如何区分名字、地点和事物？_Nlp

Nlp 你如何区分名字、地点和事物？

nlp

Nlp 你如何区分名字、地点和事物？,nlp,Nlp,以下是摘自《指环王》的专有名词列表。我想知道是否有一种很好的方法可以根据它们是指一个人、一个地方还是一件事来对它们进行分类。是否有一个自然语言处理库可以做到这一点？有没有办法区分地名和事物夏尔、图克兰、巴金斯、伯芬、马奇、巴克兰、福诺斯特、诺伯里、霍比特人、塔克、塞恩、老巴克、霍比特人、塞恩希普、伊森格林、米歇尔、迪尔文、仲夏、邮政局长、谢里夫、法廷、邦德斯、比尔博、佛罗多。信息提取的任务是将文本定位并分类为预定义的类别，例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典（如您

以下是摘自《指环王》的专有名词列表。我想知道是否有一种很好的方法可以根据它们是指一个人、一个地方还是一件事来对它们进行分类。是否有一个自然语言处理库可以做到这一点？有没有办法区分地名和事物

夏尔、图克兰、巴金斯、伯芬、马奇、巴克兰、福诺斯特、诺伯里、霍比特人、塔克、塞恩、老巴克、霍比特人、塞恩希普、伊森格林、米歇尔、迪尔文、仲夏、邮政局长、谢里夫、法廷、邦德斯、比尔博、佛罗多。信息提取的任务是将文本定位并分类为预定义的类别，例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典（如您拥有的单词）通过无监督的方法来实现这一点。或者使用有监督的方法，例如CRF、神经网络等，但您需要一个预定义的句子列表，其中包含相应的注释名称和类。在本例中，作者使用Spacy（NLP库）将NER应用于《指环王》小说。您可以在链接中阅读更多内容。

您正在谈论的内容。信息提取的任务是将文本定位并分类为预定义的类别，例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典（如您拥有的单词）通过无监督的方法来实现这一点。或者使用有监督的方法，例如CRF、神经网络等，但您需要一个预定义的句子列表，其中包含相应的注释名称和类。在本例中，作者使用Spacy（NLP库）将NER应用于《指环王》小说。您可以在链接中阅读更多内容。

以下是解决方案：命名实体识别（NER）（也称为实体识别、实体分块和实体提取）是信息提取的子任务，旨在定位非结构化文本中提到的命名实体并将其分类为预定义类别，如人名、组织、位置、医疗代码、时间表达式、数量、，货币价值、百分比等

维基百科链接：

命名实体识别（NER）是一个标准的NLP问题，涉及从文本块中发现命名实体（人员、地点、组织等），并将其分类到预定义的类别集。NER的一些实际应用包括：

扫描报道的人员、组织和地点的新闻文章。为搜索优化提供简洁的功能：不必搜索整个内容，只需搜索所涉及的主要实体即可。快速检索推特帖子中提到的地理位置。痉挛性神经麻痹 spaCy被认为是Python中速度最快的NLP框架，它实现的每个NLP任务都有一个优化的函数。由于易于学习和使用，只需几行代码即可轻松执行简单任务

安装：

!pip install spacy
!python -m spacy download en_core_web_sm

import spacy 
nlp = spacy.load('en_core_web_sm') 
sentence = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(sentence) 
for ent in doc.ents: 
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

输出：

苹果0.5组织英国27 31 GPE 10亿美元44 54美元

在输出中，第一列指定实体，下两列指定句子/文档中的开始字符和结束字符，最后一列指定类别

此外，值得注意的是，spaCy的NER模型使用大写作为识别命名实体的线索之一。同一个例子，在稍加修改后进行测试时，会产生不同的结果。

维基百科链接：

安装：

!pip install spacy
!python -m spacy download en_core_web_sm

import spacy 
nlp = spacy.load('en_core_web_sm') 
sentence = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(sentence) 
for ent in doc.ents: 
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

输出：

苹果0.5组织英国27 31 GPE 10亿美元44 54美元

在输出中，第一列指定实体，下两列指定句子/文档中的开始字符和结束字符，最后一列指定类别

此外，值得注意的是，spaCy的NER模型使用大写作为识别命名实体的线索之一。同样的例子，当进行轻微的修改测试时，会产生不同的结果