Nlp 在实施维特比词性标注算法时,HMM中的开始和结束状态是否必要?

Nlp 在实施维特比词性标注算法时,HMM中的开始和结束状态是否必要?,nlp,hidden-markov-models,viterbi,Nlp,Hidden Markov Models,Viterbi,我不完全理解如何在隐马尔可夫模型中使用开始和结束状态。为了设计和实施转换矩阵和发射矩阵,这些是必要的吗?开始/结束状态对于建模标签是否可能出现在句子的开头或结尾是必要的 例如,如果你有一个五个单词的句子,你正在考虑两个标记 名词动词名词 名词动词形容词 这两种方法在转换方面都很好,因为Det->Noun和Det->Adj都非常可能。但是,与其说一个句子以形容词结尾,不如说它是一个名词,如果没有结束标记,你是不会得到它的。所以你真正想比较的是 开始名词动词结束名词结束 名词动词Det形容词结束 然

我不完全理解如何在隐马尔可夫模型中使用开始和结束状态。为了设计和实施转换矩阵和发射矩阵,这些是必要的吗?

开始/结束状态对于建模标签是否可能出现在句子的开头或结尾是必要的

例如,如果你有一个五个单词的句子,你正在考虑两个标记

  • 名词动词名词
  • 名词动词形容词
  • 这两种方法在转换方面都很好,因为Det->Noun和Det->Adj都非常可能。但是,与其说一个句子以形容词结尾,不如说它是一个名词,如果没有结束标记,你是不会得到它的。所以你真正想比较的是

  • 开始名词动词结束名词结束
  • 名词动词Det形容词结束
  • 然后计算p(END |名词)和p(END | Adj)


    如果你在进行监督训练,那么使用START/END获得的概率与其他标记没有什么不同,你只需在计算前将特殊标记附加到每个句子。因此,如果您的培训语料库有:

    Det Noun Verb
    Det Noun Verb Det Noun
    
    然后您会将其修改为

    START Det Noun Verb END
    START Det Noun Verb Det Noun END
    
    和计算,例如:

    • P(Det | START)=2/2
    • P(结束|动词)=1/2
    • P(结束|名词)=1/3

    而且,排放量很小:p(START | START)=1和p(END | END)=1

    我认为这个问题实际上取决于你的语料库。如果你使用的语料库包含完整的句子(从语义上讲),那么我建议你添加开始和结束状态,以改进语言模型。但是,如果语料库中充满了句子片段,那么我认为开始/结束状态不会有帮助。它们甚至可能适得其反


    基本上,在词性标注中,起始状态试图模拟什么样的标注更可能出现在句子的开头。最终状态也是如此。因此,如果语料库中的句子真的是句子,那么这些开始/结束状态将教会你的语言模型如何开始或结束一个句子。

    对,但我没有这些信息,无论是在转换矩阵还是在发射矩阵中。我是否应该在句号后保留POS的计数?当然!我正在尝试实现一个二元标记器,所以我必须在我的语料库中的每个句子中插入这些开始和结束状态吗?你实际上不需要编辑你的语料库,你可以在计算的过程中动态地“添加”它们。