Java 有一种实体识别器分类器算法,它不';t需要完整的文本作为训练数据?

Java 有一种实体识别器分类器算法,它不';t需要完整的文本作为训练数据?,java,algorithm,nlp,named-entity-recognition,training-data,Java,Algorithm,Nlp,Named Entity Recognition,Training Data,我想识别文本中的一些实体,我发现了很多算法(朴素贝叶斯、隐马尔可夫模型、条件随机场等),但似乎几乎所有这些都需要大量的训练数据来对实体进行分类 我想知道是否有一些算法可以识别,而不需要训练数据中的文本,但可能只有表示我想要识别的数据的单词,或者一些字符串模式,或者其他方式 我唯一想避免的是有必要使用大量文本作为训练数据。如果您有一个简短的列表,列出了您想要查找的命名实体类型(通常称为“地名录”),并且不希望手动注释训练数据,那么您应该研究命名实体识别的引导工作。您可以使用引导扩展地名录或开发命名

我想识别文本中的一些实体,我发现了很多算法(朴素贝叶斯、隐马尔可夫模型、条件随机场等),但似乎几乎所有这些都需要大量的训练数据来对实体进行分类

我想知道是否有一些算法可以识别,而不需要训练数据中的文本,但可能只有表示我想要识别的数据的单词,或者一些字符串模式,或者其他方式


我唯一想避免的是有必要使用大量文本作为训练数据。

如果您有一个简短的列表,列出了您想要查找的命名实体类型(通常称为“地名录”),并且不希望手动注释训练数据,那么您应该研究命名实体识别的引导工作。您可以使用引导扩展地名录或开发命名实体识别器。我在快速搜索中发现的一些示例方法如下:

还有大量关于命名实体识别的主动学习的研究,如果您决定进行一些手动注释,这可以显著减少需要注释的训练数据量