Nlp 词性标注和浅层句法分析有什么区别?

Nlp 词性标注和浅层句法分析有什么区别?,nlp,pos-tagger,Nlp,Pos Tagger,我目前正在大学学习自然语言处理课程,但仍然对一些基本概念感到困惑。我从书中得到了词性标注的定义: 标记是对句子中的每个单词进行标记的任务 用适当的词性。我们决定每个单词是否是一个单词 名词、动词、形容词或其他什么 但我在书中找不到浅层句法分析的定义,因为它也将浅层句法分析描述为词性标注的实用工具之一。因此,我开始在网上搜索,没有找到关于浅层解析的直接解释,但是: 浅层句法分析(也叫组块分析,“浅层句法分析”)是对句子的分析,它识别成分(名词组、动词、动词组等),但不指定其内部结构,也不指定它们在

我目前正在大学学习自然语言处理课程,但仍然对一些基本概念感到困惑。我从书中得到了词性标注的定义:

标记是对句子中的每个单词进行标记的任务 用适当的词性。我们决定每个单词是否是一个单词 名词、动词、形容词或其他什么

但我在书中找不到浅层句法分析的定义,因为它也将浅层句法分析描述为词性标注的实用工具之一。因此,我开始在网上搜索,没有找到关于浅层解析的直接解释,但是:

浅层句法分析(也叫组块分析,“浅层句法分析”)是对句子的分析,它识别成分(名词组、动词、动词组等),但不指定其内部结构,也不指定它们在主句中的作用

坦率地说,我看不出有什么不同,但可能是因为我的英语,或者只是我不理解简单的基本概念。有人能解释一下浅层语法分析和词性标注之间的区别吗?浅层语法分析通常也称为浅层语义语法分析吗


谢谢您。

约束语法框架是一个说明性的框架。在最简单、最粗糙的形式中,它将POS标记的文本作为输入,并添加您可以称之为部分子句标记的内容。例如,对于一个形容词,它可以添加
@NN>
,以表示它是NP的一部分,而NP的中心词在右边。

词性标记将为输入句子中的每个单词提供一个词性标记

解析句子(例如使用斯坦福pcfg)将把句子转换成一棵树,树的叶子将包含POS标记(对应于句子中的单词),但树的其余部分将告诉您这些单词是如何准确地结合在一起构成整个句子的。例如,一个形容词和一个名词可能组合为“名词短语”,这可能与另一个形容词组合形成另一个名词短语(例如quick brown fox)(片段组合的确切方式取决于所讨论的解析器)。
您可以在下面的示例中看到解析器输出的样子


浅层解析器或“chunker”介于两者之间。一个普通的POS标记器速度很快,但不能提供足够的信息,而一个完整的解析器速度很慢,提供的信息太多。POS标记器可以被认为是一个解析器,它只向您返回解析树的最底层。chunker可能被认为是一个解析器,它将解析树的其他层返回给您。有时,你只需要知道一堆单词一起构成一个名词短语,而不关心这些单词中树的子结构(即哪些单词是形容词、限定词、名词等,以及它们如何组合)。在这种情况下,您可以使用chunker获得所需的准确信息,而不是浪费时间生成句子的完整解析树。

词性标记是一个确定文本中每个标记的类型的过程,例如名词、动词、限定词等。标记可以是单词或标点。
同时,浅层分析或组块是将文本划分为语法相关组的过程

词性标注输出

我的/PRP$狗/NN喜欢/VBZ his/PRP$食物/NN./

分块输出

[NP我的狗][VP喜欢][NP他的食物]


在POS_tagger中,我们使用像{名词,动词,形容词,adv,prob…}这样的“标记集”标记单词 而浅层解析器则尝试定义子组件,如句子中的名称实体和短语
“我目前(在(我的大学)上一门自然语言处理课程)并且(仍然对一些基本概念感到困惑)。”

D.Jurafsky和J.H.Martin在他们的文章中说,浅解析(部分解析)是一种不能从句子中提取所有可能信息的解析,但只需提取具体案例中有价值的信息

组块只是浅层解析的一种方法。如前所述,它仅提取有关基本非递归短语(例如动词短语或名词短语)的信息

例如,其他方法会生成扁平的解析树。这些树可能包含关于词性标记的信息,但推迟可能需要语义或上下文因素(如PP附件、协调歧义和名词性复合词分析)的决定


因此,浅层解析是生成部分解析树的解析。组块就是这种解析的一个例子

示例:请注意,即使声称每个标记正确率为97%的POS标记器,每个句子的正确率也仅为50–60%。如果不使用实际的语法,你就不可能得到好的结果,因为有太多常见但困难的情况。考虑到有这么多人使用Penn标记,Penn标记过于简单也无济于事。我认为“解析句子(例如使用stanford pcfg)会将句子转换成一棵树,树的叶子将保留POS标记”应该是非叶节点。那么说解析器叶中的单词标记数据比词性标记的标记数据更准确是真的吗?