Nlp 可对NLTK进行培训,以检测;编造;句子中的名字?

Nlp 可对NLTK进行培训,以检测;编造;句子中的名字?,nlp,nltk,nltk-trainer,Nlp,Nltk,Nltk Trainer,我最近开始研究使用NLTK进行数据提取。虽然有几个例子和技术用于检测“真实”姓名、位置等。。我还没有找到一种有效的方法来检测“虚构”或“虚构”的名字。一个示例字符串是: 他的名字叫Wuzzywgg,他有一条狗叫fizzbuzz 我想训练NLTK能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些解决方案依赖于以大写字母开头的单词,但这感觉非常“粗糙” 而且容易出现错误和误报 对于如何解决这个问题的任何帮助,我们都将不胜感激。提前谢谢。我在处理俄罗斯民间故事时遇到了同样的问

我最近开始研究使用NLTK进行数据提取。虽然有几个例子和技术用于检测“真实”姓名、位置等。。我还没有找到一种有效的方法来检测“虚构”或“虚构”的名字。一个示例字符串是:

他的名字叫Wuzzywgg,他有一条狗叫fizzbuzz

我想训练NLTK能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些解决方案依赖于以大写字母开头的单词,但这感觉非常“粗糙” 而且容易出现错误和误报


对于如何解决这个问题的任何帮助,我们都将不胜感激。提前谢谢。

我在处理俄罗斯民间故事时遇到了同样的问题,结果发现它们的大部分名字都没有出现在西方杂志上。一种快速的方法可能是使用词性标记,只获取NNP(专有名词)。选中此项:


这并不完全适用于我,我的方法涉及实际提取所有名词短语(解析树中的NP节点),然后提取我自己注释的特征向量来构建ML分类器。您可以在此处找到更多信息:

命名实体识别器依赖于各种线索(通常包括大写)来确定它们正在查看哪种命名实体(如果有的话)。如果你不想区分真实的和虚构的名字,这对你来说应该足够好了。