Artificial intelligence 无标记语料库数据的隐马尔可夫模型训练

Artificial intelligence 无标记语料库数据的隐马尔可夫模型训练,artificial-intelligence,machine-learning,nlp,linguistics,markov-models,Artificial Intelligence,Machine Learning,Nlp,Linguistics,Markov Models,对于语言学课程,我们使用隐马尔可夫模型实现词性(POS)标记,其中隐变量是词性。我们根据一些标记数据对系统进行训练,然后对其进行测试,并将我们的结果与gold数据进行比较 如果没有标记的训练集,是否有可能训练HMM NLP是几年前的事了,但我相信不标记HMM有助于确定n-gram的符号发射/状态转移概率(即,“hello”之后出现“world”的概率),而不是词性。它需要标记的语料库来学习词性之间的相互关系 如果我在这件事上偏离了方向,请在评论中告诉我 理论上你可以做到。在这种情况下,您将使用B

对于语言学课程,我们使用隐马尔可夫模型实现词性(POS)标记,其中隐变量是词性。我们根据一些标记数据对系统进行训练,然后对其进行测试,并将我们的结果与gold数据进行比较


如果没有标记的训练集,是否有可能训练HMM

NLP是几年前的事了,但我相信不标记HMM有助于确定n-gram的符号发射/状态转移概率(即,“hello”之后出现“world”的概率),而不是词性。它需要标记的语料库来学习词性之间的相互关系


如果我在这件事上偏离了方向,请在评论中告诉我

理论上你可以做到。在这种情况下,您将使用Baum-Welch算法。这在本书中有很好的描述

然而,将HMMs应用于词性之后,您在标准表单中得到的错误将不会令人满意。它是一种仅收敛于局部极大值的期望最大化形式。基于规则的方法轻而易举地击败了HMMs,iirc


我相信自然语言工具包NLTK for python有一个HMM实现就是为了达到这个目的。

你真的在乎你是否有一个HMM,只要它标记POS吗?@Claudiu嗨,我是ML领域的新手。但是,我正在尝试训练一个HMM模型,用于泰米尔语词性标注和标记语料库。你有什么资源可以建议我开始研究吗?