Algorithm 识别文献中的姓名和地点

Algorithm 识别文献中的姓名和地点,algorithm,Algorithm,我一直在玩马尔可夫链文本生成和朴素贝叶斯分类器。我想知道是否有一种方法可以应用这些概念中的任何一种来识别小说中的某些类型的词。例如姓氏或地名 我可以通过我的马尔可夫链看到,某些单词倾向于以同样的方式与某些其他类型的单词联系起来。例如,Mr.经常排在姓氏之前,“去”往往排在地名之前,而姓氏往往排在名字之后 有没有一种好的方法可以让我编写一个程序,用一个示例名称列表,然后翻阅一大套书籍,以相当准确的方式识别所有类似这些名称的单词?英语有规律吗?这以前做过吗?这个方法有名字吗 谢谢, Andrew事实

我一直在玩马尔可夫链文本生成和朴素贝叶斯分类器。我想知道是否有一种方法可以应用这些概念中的任何一种来识别小说中的某些类型的词。例如姓氏或地名

我可以通过我的马尔可夫链看到,某些单词倾向于以同样的方式与某些其他类型的单词联系起来。例如,Mr.经常排在姓氏之前,“去”往往排在地名之前,而姓氏往往排在名字之后

有没有一种好的方法可以让我编写一个程序,用一个示例名称列表,然后翻阅一大套书籍,以相当准确的方式识别所有类似这些名称的单词?英语有规律吗?这以前做过吗?这个方法有名字吗

谢谢,
Andrew

事实上,名字的模式很少,例如:

{FirstName}{Space}{Token with big first char}
{BigCharacter}{Dot}{Space}{Token with big first char}
{"Mr" | "Ms"}{Dot}{Space}{Token with big first char}

还有几个。你所需要的只是一个名字字典和一个简单的引擎来捕捉这些模式。有一个很好的框架(以及许多其他东西)。它有非常大的名字字典和用于操作令牌序列的特殊模式语言(JAPE)。您可以直接使用它,也可以自己获取字典并实现逻辑

事实上,名字的模式很少,例如:

{FirstName}{Space}{Token with big first char}
{BigCharacter}{Dot}{Space}{Token with big first char}
{"Mr" | "Ms"}{Dot}{Space}{Token with big first char}

还有几个。你所需要的只是一个名字字典和一个简单的引擎来捕捉这些模式。有一个很好的框架(以及许多其他东西)。它有非常大的名字字典和用于操作令牌序列的特殊模式语言(JAPE)。您可以直接使用它,也可以自己获取字典并实现逻辑

想到命名实体识别:想到命名实体识别: