Nlp 如何从一堆文本中提取完整实体(而不是部分实体)
这可能是一个经典的NLP问题,但是如何在一堆tweet中提取完整的实体呢 例如,假设有一堆推文提到“波士顿”和“马拉松”,它们都在同一条推文中。我怎么知道我应该摘录“波士顿马拉松”,而不仅仅是波士顿或马拉松Nlp 如何从一堆文本中提取完整实体(而不是部分实体),nlp,Nlp,这可能是一个经典的NLP问题,但是如何在一堆tweet中提取完整的实体呢 例如,假设有一堆推文提到“波士顿”和“马拉松”,它们都在同一条推文中。我怎么知道我应该摘录“波士顿马拉松”,而不仅仅是波士顿或马拉松 类似地,假设有很多推特提到“权力游戏”。我如何知道要提取的实体是权力游戏,而不仅仅是游戏?大多数命名实体识别器使用所谓的IOB(内部-外部-开始)标记方案,正是因为您所询问的场景。例如,句子 John saw Game of Thrones. 应标记为 John/B-PERSON saw/
类似地,假设有很多推特提到“权力游戏”。我如何知道要提取的实体是权力游戏,而不仅仅是游戏?大多数命名实体识别器使用所谓的IOB(内部-外部-开始)标记方案,正是因为您所询问的场景。例如,句子
John saw Game of Thrones.
应标记为
John/B-PERSON saw/O Game/B-MISC of/I-MISC Thrones/I-MISC.
请注意,“权力游戏”的第二和第三个标记是如何标记为位于命名实体内的,命名实体从“游戏”开始。当然,不能保证您正在使用的标记器会产生这种精确的标记序列
您可以在中阅读有关IOB的更多信息。大多数命名实体识别器使用所谓的IOB(内部-外部开始)标记方案正是因为您所询问的场景。例如,句子
John saw Game of Thrones.
应标记为
John/B-PERSON saw/O Game/B-MISC of/I-MISC Thrones/I-MISC.
请注意,“权力游戏”的第二和第三个标记是如何标记为位于命名实体内的,命名实体从“游戏”开始。当然,不能保证您正在使用的标记器会产生这种精确的标记序列
您可以在中阅读有关IOB的更多信息。另一种尝试可能是提取搭配。有关此方法的介绍,请参阅。另一个尝试可能是提取搭配。有关此方法的介绍,请参阅。您也可以尝试使用DBpedia Spotlight端点
您也可以尝试使用DBpedia Spotlight端点
我当前正在从事件数据库中提取命名实体。我尝试了几个库NLTK、PHP脚本等,但我找到的最好的库是Stanford NER: english.all.3 class.distsim.crf.ser.gz
<PERSON>John</PERSON> saw Game of Thrones.
John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.
指定我想要或不想要的命名实体 我当前正在从事件数据库中提取命名实体。我尝试了几个库NLTK、PHP脚本等,但我找到的最好的库是Stanford NER: english.all.3 class.distsim.crf.ser.gz
<PERSON>John</PERSON> saw Game of Thrones.
John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.
指定我想要或不想要的命名实体