Nlp TensorFlow和一个NER标记器
我想知道是否有可能在tensorflow中使用命名实体识别和自训练模型 有一个word2vec实现,但我找不到“经典”POS或NER标记器Nlp TensorFlow和一个NER标记器,nlp,tensorflow,Nlp,Tensorflow,我想知道是否有可能在tensorflow中使用命名实体识别和自训练模型 有一个word2vec实现,但我找不到“经典”POS或NER标记器 谢谢你的帮助 您可以根据序列模型调整序列以进行NER标记。您的培训文本是编码器的源词汇表/序列: Yesterday afternoon , Mike Smith drove to New York . 你的BIO/BILOU NER标签是你的目标词汇表/序列,用于解码NER标签: O O O B_PER I_PER O O B_LOC I_LOC O
谢谢你的帮助 您可以根据序列模型调整序列以进行NER标记。您的培训文本是编码器的源词汇表/序列:
Yesterday afternoon , Mike Smith drove to New York .
你的BIO/BILOU NER标签是你的目标词汇表/序列,用于解码NER标签:
O O O B_PER I_PER O O B_LOC I_LOC O
或者使用词性标签对解码器进行词性标签:
NN NN , NNP NNP VBD TO NNP NNP .
[使用深度学习方法的IMHO通常不需要将词性标记作为中间步骤,除非您特别需要将这些功能作为输出。]
您可能希望关闭解码器的单词嵌入
这篇著名的论文将序列到序列模型应用于句法分析,这与POS和/或NER任务有一些相似之处:嘿,jmp,谢谢你的建议。我调整了seq2seq模型,并使其正常工作。在我的编码器中,我有很多数字,让我们说“Hello 10.9/12.1 a+”。现在在创建词汇表文件时,如果有很多这样的数字。这导致模型使用词性标记来断言数字。但我的目标更多的是了解数据的“结构”,而不是实际数字。你知道如何解决这个问题吗?我认为这取决于你的训练数据是如何标记和标记的……但是你可以在预处理数据时用一个特殊的符号来代替数字,比如“Hello _NUM/_numa+”。这是一个好主意,我将实现它,看看它是如何工作的。我的原始输入数据现在是“Hello Max 10.9/12.1 A+”,它将作为编码器输入预处理为Hello Max _NUM/_numA+。解码器输入将为“NN NNP NUM/NUM GRA”。谢谢你的提示:)你的建议很有效,谢谢。如果我有两个编码器/解码器序列,并且我对第一个进行了解码,那么第二个编码/解码会受到第一个编码/解码的影响,还是它们彼此完全独立?因为在训练数据中,模型逐句学习。