Parsing 词法分析器和语法分析器之间的界限应该在哪里?

Parsing 词法分析器和语法分析器之间的界限应该在哪里?,parsing,imap,lexer,Parsing,Imap,Lexer,出于教育目的,我正在为IMAP协议编写一个lexer,我不知道应该在lexer和解析器之间划清界限。以IMAP服务器响应为例: * FLAGS (\Answered \Deleted) 此响应以如下形式语法定义: mailbox-data = "FLAGS" SP flag-list flag-list = "(" [flag *(SP flag)] ")" flag = "\Answered" / "\Deleted" (TknBackSlash) (Tk

出于教育目的,我正在为IMAP协议编写一个lexer,我不知道应该在lexer和解析器之间划清界限。以IMAP服务器响应为例:

* FLAGS (\Answered \Deleted)
此响应以如下形式语法定义:

mailbox-data   = "FLAGS" SP flag-list
flag-list      = "(" [flag *(SP flag)] ")"
flag           = "\Answered" / "\Deleted"
(TknBackSlash)
(TknString "Answered")
(TknSpace)
(TknBackSlash)
(TknString "Deleted")
由于它们被指定为字符串文字(也称为“终端”标记),因此lexer为每个字符发出唯一标记是否更正确,如:

(TknAnsweredFlag)
(TknSpace)
(TknDeletedFlag)
或者发射这样的东西也是正确的:

mailbox-data   = "FLAGS" SP flag-list
flag-list      = "(" [flag *(SP flag)] ")"
flag           = "\Answered" / "\Deleted"
(TknBackSlash)
(TknString "Answered")
(TknSpace)
(TknBackSlash)
(TknString "Deleted")

我的困惑是,前一种方法可能会使lexer过于复杂-如果
\responsed
在两种不同的上下文中有两种含义,那么lexer就不会发出正确的标记。作为一个人为的例子(这种情况不会发生,因为电子邮件地址用引号括起来),lexer如何处理这样的电子邮件地址\Answered@googlemail.com? 还是形式语法的设计永远不允许出现这种歧义?

我建议避免将词法分析器和语法分析器分开——现代语法分析方法(like)允许混合词法分析和语法分析。这样你就根本不需要代币了。

我首先想到了CFG,它需要做的任何终端都是lexer应该识别的;否则,您只是在猜测标记字符串的正确方法。

一般来说,您不希望词汇语法传播到语法中,因为它只是细节。例如,计算机编程语言(如C)的lexer肯定会识别数字,但通常不适合生成HEXNUMBER和DECIMALNUMBER标记,因为这对语法并不重要

我认为你想要的是最抽象的标记,它允许你的语法区分与你的目的相关的感兴趣的情况。你可以通过在语法的一个部分引起的混乱,通过你在其他部分可能做出的选择来调解这一点

如果您的目标只是读取过去的标志值,那么实际上您不需要区分它们,没有相关内容的TknFlag就足够了

如果您的目标是单独处理标志值,则需要知道您是否得到了应答和/或删除的指示。它们的词汇拼写方式无关紧要;所以我会选择你的TknAnsweredFlag解决方案。我会转储TknSpace,因为在任何标志序列中,都必须有中间空格(您的规范这么说),所以我会尝试使用lexer提供的任何空格抑制机制来消除

有时,我会遇到很多类似国旗的东西。然后,如果你对每一个都有一个标记,你的语法就会变得混乱。如果语法不需要知道特定的标志,那么应该有一个带有关联字符串值的TknFlag。如果语法需要一小部分标志来区分,但大多数都不需要,那么您应该折衷:为那些与语法有关的标志使用单独的标记,其余的则使用一个包含关联字符串的catch all TknFlag

关于两种不同解释的困难:这是一种权衡。如果您有这个问题,那么您的标记或者需要在语法中需要它们的两个地方都有足够详细的信息,以便您可以进行区分。如果“\”与语法中其他地方的标记相关,那么您当然可以生成TknBackSlash和TknAnswered。然而,如果在语法的一个部分中处理某事物的方式与另一部分不同,您通常可以使用模式驱动的词法分析器来解决这个问题。把模式想象成一个有限状态机,每个模式都有一个相关的(子)lexer。模式之间的转换由作为提示的标记触发(您必须有一个标志标记;正是这样一个提示,您将要拾取标志值)。在一种模式中,您可以生成其他模式无法生成的令牌;因此,在一种模式下,您可能会生成“\”标记,但在标志模式下,您不需要这样做。模式支持在lexer中非常常见,因为这个问题比您预期的更常见。有关示例,请参见Flex文档

事实上,你问的问题表明你在正确的轨道上做出了一个好的选择。您需要平衡最小化令牌的可维护性目标(从技术上讲,您可以使用令牌解析任何ASCII字符!)和充分区分您的需求的基本要求。在你建立了十几个语法之后,这个折衷看起来很容易,但是我认为我提供的经验法则非常好