Machine learning 名词短语分类模型?

Machine learning 名词短语分类模型?,machine-learning,nlp,hidden-markov-models,Machine Learning,Nlp,Hidden Markov Models,我需要一个用于以下任务的模型: 带词性标记的一系列单词。我想判断这一系列单词是否是名词短语 我能想到的一个模式是嗯 对于那些名词短语序列,我们训练一个HMM(HMM+)。对于那些不是名词短语,我们尝试使用一个HMM(HMM-)。当我们对一个序列进行预测时,我们可以计算P(序列| HMM+)和P(序列| HMM-)。如果前者较大,我们认为这个短语是名词短语,否则就不是 你觉得怎么样?还有其他适合这个问题的型号吗 我的直觉是HMM不是正确的模型。它可用于猜测POS标记,方法是基于从一个标记到下一个标

我需要一个用于以下任务的模型:

带词性标记的一系列单词。我想判断这一系列单词是否是名词短语

我能想到的一个模式是嗯

对于那些名词短语序列,我们训练一个HMM(HMM+)。对于那些不是名词短语,我们尝试使用一个HMM(HMM-)。当我们对一个序列进行预测时,我们可以计算P(序列| HMM+)和P(序列| HMM-)。如果前者较大,我们认为这个短语是名词短语,否则就不是


你觉得怎么样?还有其他适合这个问题的型号吗

我的直觉是HMM不是正确的模型。它可用于猜测POS标记,方法是基于从一个标记到下一个标记的先验概率和条件概率,导出具有最高概率的标记序列

对于一个完整的名词短语,我看不出这个模型如何匹配

任何基于概率的方法都很难训练,因为名词短语可能包含许多标记。这就产生了很多组合。要获得有用的训练概率,您需要非常庞大的训练集

通过遵循中的描述,在POS标记上构建一组语法规则(例如正则表达式),您可以快速轻松地获得一个良好的开端


或任何其他名词短语的语言描述。

据我所知,你已经有了单词序列的词性标签。一旦你有了单词序列的标签,如果序列是NP,你就不需要使用HMM来分类了。您只需查找以下形式的模式:

  • 限定词后接名词

  • 形容词后接名词

  • 限定词后接形容词后接名词

  • 正如刚才有人提到的,HMM用于获取新单词序列的词性标签。但是你需要一个带标签的语料库来训练HMM。NLTK软件中有一些带标签的语料库


    如果您的序列已经被标记,那么只需使用前面答案中提到的语法规则即可

    人们确实使用HMM在POS标记的句子中标记名词短语,但典型的模型设置并不像您描述的那样有效

    相反,设置(参见和示例)是使用具有三种状态的HMM:

    • O(不在NP中)
    • B(名词短语的开头)
    • I(在NP中,但不是开头)
    HMM将为句子中的每个单词指定一种状态。例如,句子:

    这个男孩用红色的球棒击球

    最理想的标签如下所示:

    BBboy/NNIhit/VTOBball/NNI与/PPOBred/ADJIbat/NNIO


    基于序列行为的先验知识,可以限制这三种HMM状态之间的转换;特别是,你只能从B转换到I,但是其他的转换都是可能的,概率为非零。然后,您可以在未标记文本的语料库上使用Baum Welch来训练您的HMM(以识别任何类型的组块——请参见示例),或者使用带有标记文本的语料库的某种最大似然方法(以防您专门寻找名词短语)。

    试试看,看看效果如何。谢谢,我决定直接使用斯坦福语法分析器。