Nlp 如何从一堆文本中提取完整实体(而不是部分实体)

Nlp 如何从一堆文本中提取完整实体(而不是部分实体),nlp,Nlp,这可能是一个经典的NLP问题,但是如何在一堆tweet中提取完整的实体呢 例如,假设有一堆推文提到“波士顿”和“马拉松”,它们都在同一条推文中。我怎么知道我应该摘录“波士顿马拉松”,而不仅仅是波士顿或马拉松 类似地,假设有很多推特提到“权力游戏”。我如何知道要提取的实体是权力游戏,而不仅仅是游戏?大多数命名实体识别器使用所谓的IOB(内部-外部-开始)标记方案,正是因为您所询问的场景。例如,句子 John saw Game of Thrones. 应标记为 John/B-PERSON saw/

这可能是一个经典的NLP问题,但是如何在一堆tweet中提取完整的实体呢

例如,假设有一堆推文提到“波士顿”和“马拉松”,它们都在同一条推文中。我怎么知道我应该摘录“波士顿马拉松”,而不仅仅是波士顿或马拉松


类似地,假设有很多推特提到“权力游戏”。我如何知道要提取的实体是权力游戏,而不仅仅是游戏?

大多数命名实体识别器使用所谓的IOB(内部-外部-开始)标记方案,正是因为您所询问的场景。例如,句子

John saw Game of Thrones.
应标记为

John/B-PERSON saw/O Game/B-MISC of/I-MISC Thrones/I-MISC.
请注意,“权力游戏”的第二和第三个标记是如何标记为位于命名实体内的,命名实体从“游戏”开始。当然,不能保证您正在使用的标记器会产生这种精确的标记序列


您可以在中阅读有关IOB的更多信息。

大多数命名实体识别器使用所谓的IOB(内部-外部开始)标记方案正是因为您所询问的场景。例如,句子

John saw Game of Thrones.
应标记为

John/B-PERSON saw/O Game/B-MISC of/I-MISC Thrones/I-MISC.
请注意,“权力游戏”的第二和第三个标记是如何标记为位于命名实体内的,命名实体从“游戏”开始。当然,不能保证您正在使用的标记器会产生这种精确的标记序列


您可以在中阅读有关IOB的更多信息。

另一种尝试可能是提取搭配。有关此方法的介绍,请参阅。

另一个尝试可能是提取搭配。有关此方法的介绍,请参阅。

您也可以尝试使用DBpedia Spotlight端点


您也可以尝试使用DBpedia Spotlight端点


我当前正在从事件数据库中提取命名实体。我尝试了几个库NLTK、PHP脚本等,但我找到的最好的库是Stanford NER:

english.all.3 class.distsim.crf.ser.gz

<PERSON>John</PERSON> saw Game of Thrones.
John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.


指定我想要或不想要的命名实体

我当前正在从事件数据库中提取命名实体。我尝试了几个库NLTK、PHP脚本等,但我找到的最好的库是Stanford NER:

english.all.3 class.distsim.crf.ser.gz

<PERSON>John</PERSON> saw Game of Thrones.
John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.

指定我想要或不想要的命名实体