新域的NLP POS标记器

新域的NLP POS标记器,nlp,nltk,Nlp,Nltk,我正在使用NLTK,希望使用一个已经过预培训的现有pos标记器,并为新域进一步培训它 我从Perceptron tagger操作中了解到的是,它在文件中查找单词,如果找不到单词,它会预测该单词的位置。理想情况下,我希望标记器能够预测特定于域的单词。但是我没有新领域的常规注释文本(我可以通过像医学词典这样的东西来搜索特定领域的单词)。我可以用特定领域的单词做两件事: 1.我会写一些简单的句子,比如“我做了血管成形术”,并对它们进行注释。这将允许标记者更准确地预测任何看不见的特定于域的单词。与常规文

我正在使用NLTK,希望使用一个已经过预培训的现有pos标记器,并为新域进一步培训它

我从Perceptron tagger操作中了解到的是,它在文件中查找单词,如果找不到单词,它会预测该单词的位置。理想情况下,我希望标记器能够预测特定于域的单词。但是我没有新领域的常规注释文本(我可以通过像医学词典这样的东西来搜索特定领域的单词)。我可以用特定领域的单词做两件事:

1.我会写一些简单的句子,比如“我做了血管成形术”,并对它们进行注释。这将允许标记者更准确地预测任何看不见的特定于域的单词。与常规文本的注释相比,简单句子的书写和注释会使模型产生偏差吗

2.我可以直接将该词包含在文件中。不是我的第一选择

我还遇到了一个文档,它使用HMM进行特定领域的培训,但我不确定它是否有效


我该怎么做?

你说的关键词是什么意思?要训练一个标记者,你需要带注释的文本(完整的句子)。对于域自适应,您可以简单地使用原始训练数据对标记器进行重新训练,并对域内和域外数据进行聚类。医学领域的关键词:血管成形术-名词。像这样的。你所说的域内和域外数据上的簇是什么意思。我从感知器操作中了解到,它从字典中查找值,如果找不到单词,它会预测该单词的词性。理想情况下,我希望标记者预测单词。但是由于我没有带注释的文本,我愿意直接将这个词包含在表中。您可以迭代开发自己的带注释的语料库。运行当前标记器,更正结果,使用正确标记的数据重新训练。@triplee。这是可以做到的,但它是不可伸缩的。我不确定NLTK标记器。我建议您创建一个带有各自标签的域名词典。根据您的标记器预测所有词汇表中的单词,如果在培训数据中未看到该单词,请使用词典。我还建议您使用CRF或结构化感知器来训练自己的标记器。标记是一个结构化的学习问题,不要使用普通的感知器。你说的关键词是什么意思?要训练一个标记者,你需要带注释的文本(完整的句子)。对于域自适应,您可以简单地使用原始训练数据对标记器进行重新训练,并对域内和域外数据进行聚类。医学领域的关键词:血管成形术-名词。像这样的。你所说的域内和域外数据上的簇是什么意思。我从感知器操作中了解到,它从字典中查找值,如果找不到单词,它会预测该单词的词性。理想情况下,我希望标记者预测单词。但是由于我没有带注释的文本,我愿意直接将这个词包含在表中。您可以迭代开发自己的带注释的语料库。运行当前标记器,更正结果,使用正确标记的数据重新训练。@triplee。这是可以做到的,但它是不可伸缩的。我不确定NLTK标记器。我建议您创建一个带有各自标签的域名词典。根据您的标记器预测所有词汇表中的单词,如果在培训数据中未看到该单词,请使用词典。我还建议您使用CRF或结构化感知器来训练自己的标记器。标记是一个结构化的学习问题,不要使用普通感知器。