Machine learning 名词短语分类模型？_Machine Learning_Nlp_Hidden Markov Models

Machine learning 名词短语分类模型？

machine-learning nlp

Machine learning 名词短语分类模型？,machine-learning,nlp,hidden-markov-models,Machine Learning,Nlp,Hidden Markov Models,我需要一个用于以下任务的模型：带词性标记的一系列单词。我想判断这一系列单词是否是名词短语我能想到的一个模式是嗯对于那些名词短语序列，我们训练一个HMM（HMM+）。对于那些不是名词短语，我们尝试使用一个HMM（HMM-）。当我们对一个序列进行预测时，我们可以计算P（序列| HMM+）和P（序列| HMM-）。如果前者较大，我们认为这个短语是名词短语，否则就不是你觉得怎么样？还有其他适合这个问题的型号吗我的直觉是HMM不是正确的模型。它可用于猜测POS标记，方法是基于从一个标记到下一个标

我需要一个用于以下任务的模型：

带词性标记的一系列单词。我想判断这一系列单词是否是名词短语

我能想到的一个模式是嗯

对于那些名词短语序列，我们训练一个HMM（HMM+）。对于那些不是名词短语，我们尝试使用一个HMM（HMM-）。当我们对一个序列进行预测时，我们可以计算P（序列| HMM+）和P（序列| HMM-）。如果前者较大，我们认为这个短语是名词短语，否则就不是

你觉得怎么样？还有其他适合这个问题的型号吗

我的直觉是HMM不是正确的模型。它可用于猜测POS标记，方法是基于从一个标记到下一个标记的先验概率和条件概率，导出具有最高概率的标记序列

对于一个完整的名词短语，我看不出这个模型如何匹配

任何基于概率的方法都很难训练，因为名词短语可能包含许多标记。这就产生了很多组合。要获得有用的训练概率，您需要非常庞大的训练集

通过遵循中的描述，在POS标记上构建一组语法规则（例如正则表达式），您可以快速轻松地获得一个良好的开端

或任何其他名词短语的语言描述。

据我所知，你已经有了单词序列的词性标签。一旦你有了单词序列的标签，如果序列是NP，你就不需要使用HMM来分类了。您只需查找以下形式的模式：

限定词后接名词

形容词后接名词

限定词后接形容词后接名词

等

正如刚才有人提到的，HMM用于获取新单词序列的词性标签。但是你需要一个带标签的语料库来训练HMM。NLTK软件中有一些带标签的语料库

如果您的序列已经被标记，那么只需使用前面答案中提到的语法规则即可

人们确实使用HMM在POS标记的句子中标记名词短语，但典型的模型设置并不像您描述的那样有效

相反，设置（参见和示例）是使用具有三种状态的HMM：

O（不在NP中）
B（名词短语的开头）
I（在NP中，但不是开头）

HMM将为句子中的每个单词指定一种状态。例如，句子：

这个男孩用红色的球棒击球

最理想的标签如下所示：

BBboy/NNIhit/VTOBball/NNI与/PPOBred/ADJIbat/NNIO

基于序列行为的先验知识，可以限制这三种HMM状态之间的转换；特别是，你只能从B转换到I，但是其他的转换都是可能的，概率为非零。然后，您可以在未标记文本的语料库上使用Baum Welch来训练您的HMM（以识别任何类型的组块——请参见示例），或者使用带有标记文本的语料库的某种最大似然方法（以防您专门寻找名词短语）。

试试看，看看效果如何。谢谢，我决定直接使用斯坦福语法分析器。