Nlp TensorFlow和一个NER标记器_Nlp_Tensorflow

Nlp TensorFlow和一个NER标记器

nlp tensorflow

Nlp TensorFlow和一个NER标记器,nlp,tensorflow,Nlp,Tensorflow,我想知道是否有可能在tensorflow中使用命名实体识别和自训练模型有一个word2vec实现，但我找不到“经典”POS或NER标记器谢谢你的帮助您可以根据序列模型调整序列以进行NER标记。您的培训文本是编码器的源词汇表/序列： Yesterday afternoon , Mike Smith drove to New York . 你的BIO/BILOU NER标签是你的目标词汇表/序列，用于解码NER标签： O O O B_PER I_PER O O B_LOC I_LOC O

我想知道是否有可能在tensorflow中使用命名实体识别和自训练模型

有一个word2vec实现，但我找不到“经典”POS或NER标记器

谢谢你的帮助

您可以根据序列模型调整序列以进行NER标记。您的培训文本是编码器的源词汇表/序列：

Yesterday afternoon , Mike Smith drove to New York .

你的BIO/BILOU NER标签是你的目标词汇表/序列，用于解码NER标签：

O O O B_PER I_PER O O B_LOC I_LOC O

或者使用词性标签对解码器进行词性标签：

NN NN ,  NNP NNP VBD TO NNP NNP .

[使用深度学习方法的IMHO通常不需要将词性标记作为中间步骤，除非您特别需要将这些功能作为输出。]

您可能希望关闭解码器的单词嵌入

这篇著名的论文将序列到序列模型应用于句法分析，这与POS和/或NER任务有一些相似之处：

嘿，jmp，谢谢你的建议。我调整了seq2seq模型，并使其正常工作。在我的编码器中，我有很多数字，让我们说“Hello 10.9/12.1 a+”。现在在创建词汇表文件时，如果有很多这样的数字。这导致模型使用词性标记来断言数字。但我的目标更多的是了解数据的“结构”，而不是实际数字。你知道如何解决这个问题吗？我认为这取决于你的训练数据是如何标记和标记的……但是你可以在预处理数据时用一个特殊的符号来代替数字，比如“Hello _NUM/_numa+”。这是一个好主意，我将实现它，看看它是如何工作的。我的原始输入数据现在是“Hello Max 10.9/12.1 A+”，它将作为编码器输入预处理为Hello Max _NUM/_numA+。解码器输入将为“NN NNP NUM/NUM GRA”。谢谢你的提示：）你的建议很有效，谢谢。如果我有两个编码器/解码器序列，并且我对第一个进行了解码，那么第二个编码/解码会受到第一个编码/解码的影响，还是它们彼此完全独立？因为在训练数据中，模型逐句学习。