Nlp 你如何区分名字、地点和事物?

Nlp 你如何区分名字、地点和事物?,nlp,Nlp,以下是摘自《指环王》的专有名词列表。我想知道是否有一种很好的方法可以根据它们是指一个人、一个地方还是一件事来对它们进行分类。是否有一个自然语言处理库可以做到这一点?有没有办法区分地名和事物 夏尔、图克兰、巴金斯、伯芬、马奇、巴克兰、福诺斯特、诺伯里、霍比特人、塔克、塞恩、老巴克、霍比特人、塞恩希普、伊森格林、米歇尔、迪尔文、仲夏、邮政局长、谢里夫、法廷、邦德斯、比尔博、佛罗多。信息提取的任务是将文本定位并分类为预定义的类别,例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典(如您

以下是摘自《指环王》的专有名词列表。我想知道是否有一种很好的方法可以根据它们是指一个人、一个地方还是一件事来对它们进行分类。是否有一个自然语言处理库可以做到这一点?有没有办法区分地名和事物

夏尔、图克兰、巴金斯、伯芬、马奇、巴克兰、福诺斯特、诺伯里、霍比特人、塔克、塞恩、老巴克、霍比特人、塞恩希普、伊森格林、米歇尔、迪尔文、仲夏、邮政局长、谢里夫、法廷、邦德斯、比尔博、佛罗多。信息提取的任务是将文本定位并分类为预定义的类别,例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典(如您拥有的单词)通过无监督的方法来实现这一点。或者使用有监督的方法,例如CRF、神经网络等,但您需要一个预定义的句子列表,其中包含相应的注释名称和类。在本例中,作者使用Spacy(NLP库)将NER应用于《指环王》小说。您可以在链接中阅读更多内容。

您正在谈论的内容。信息提取的任务是将文本定位并分类为预定义的类别,例如预定义的名称、位置、组织、时间表达式、货币值等。您可以使用字典(如您拥有的单词)通过无监督的方法来实现这一点。或者使用有监督的方法,例如CRF、神经网络等,但您需要一个预定义的句子列表,其中包含相应的注释名称和类。在本例中,作者使用Spacy(NLP库)将NER应用于《指环王》小说。您可以在链接中阅读更多内容。

以下是解决方案: 命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的子任务,旨在定位非结构化文本中提到的命名实体并将其分类为预定义类别,如人名、组织、位置、医疗代码、时间表达式、数量、,货币价值、百分比等

维基百科链接:

命名实体识别(NER)是一个标准的NLP问题,涉及从文本块中发现命名实体(人员、地点、组织等),并将其分类到预定义的类别集。NER的一些实际应用包括:

扫描报道的人员、组织和地点的新闻文章。 为搜索优化提供简洁的功能:不必搜索整个内容,只需搜索所涉及的主要实体即可。 快速检索推特帖子中提到的地理位置。 痉挛性神经麻痹 spaCy被认为是Python中速度最快的NLP框架,它实现的每个NLP任务都有一个优化的函数。由于易于学习和使用,只需几行代码即可轻松执行简单任务

安装:

!pip install spacy
!python -m spacy download en_core_web_sm

import spacy 
nlp = spacy.load('en_core_web_sm') 
sentence = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(sentence) 
for ent in doc.ents: 
    print(ent.text, ent.start_char, ent.end_char, ent.label_) 
输出:

苹果0.5组织 英国27 31 GPE 10亿美元44 54美元

在输出中,第一列指定实体,下两列指定句子/文档中的开始字符和结束字符,最后一列指定类别

此外,值得注意的是,spaCy的NER模型使用大写作为识别命名实体的线索之一。同一个例子,在稍加修改后进行测试时,会产生不同的结果。

以下是解决方案: 命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的子任务,旨在定位非结构化文本中提到的命名实体并将其分类为预定义类别,如人名、组织、位置、医疗代码、时间表达式、数量、,货币价值、百分比等

维基百科链接:

命名实体识别(NER)是一个标准的NLP问题,涉及从文本块中发现命名实体(人员、地点、组织等),并将其分类到预定义的类别集。NER的一些实际应用包括:

扫描报道的人员、组织和地点的新闻文章。 为搜索优化提供简洁的功能:不必搜索整个内容,只需搜索所涉及的主要实体即可。 快速检索推特帖子中提到的地理位置。 痉挛性神经麻痹 spaCy被认为是Python中速度最快的NLP框架,它实现的每个NLP任务都有一个优化的函数。由于易于学习和使用,只需几行代码即可轻松执行简单任务

安装:

!pip install spacy
!python -m spacy download en_core_web_sm

import spacy 
nlp = spacy.load('en_core_web_sm') 
sentence = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(sentence) 
for ent in doc.ents: 
    print(ent.text, ent.start_char, ent.end_char, ent.label_) 
输出:

苹果0.5组织 英国27 31 GPE 10亿美元44 54美元

在输出中,第一列指定实体,下两列指定句子/文档中的开始字符和结束字符,最后一列指定类别

此外,值得注意的是,spaCy的NER模型使用大写作为识别命名实体的线索之一。同样的例子,当进行轻微的修改测试时,会产生不同的结果