ANTLR4词法分析器无法按语法顺序解决歧义

ANTLR4词法分析器无法按语法顺序解决歧义,antlr4,Antlr4,使用ANTLR 4.2,我尝试对该测试数据进行非常简单的解析: RRV0#ABC 使用最小语法: grammar Tiny; thing : RRV N HASH ID ; RRV : 'RRV' ; N : [0-9]+ ; HASH : '#' ; ID : [a-zA-Z0-9]+ ; WS : [\t\r\n]+ -> skip ; // match 1-or-more whitespace but discard 我预计lexer RRV将在ID之前匹配,基于以下Tere

使用ANTLR 4.2,我尝试对该测试数据进行非常简单的解析:

RRV0#ABC
使用最小语法:

grammar Tiny;

thing : RRV N HASH ID ;

RRV : 'RRV' ;
N : [0-9]+ ;
HASH : '#' ;
ID : [a-zA-Z0-9]+ ;
WS : [\t\r\n]+ -> skip ; // match 1-or-more whitespace but discard
我预计lexer RRV将在ID之前匹配,基于以下Terence Parr的权威ANTLR 4参考摘录:

BEGIN : 'begin' ; // match b-e-g-i-n sequence; ambiguity resolves to BEGIN
ID : [a-z]+ ; // match one or more of any lowercase letter
使用上述测试数据运行ANTLR4测试台,输出为

[@0,0:3='RRV0',<4>,1:0]
[@1,4:4='#',<3>,1:4]
[@2,5:7='ABC',<4>,1:5]
[@3,10:9='<EOF>',<-1>,2:0]
line 1:0 mismatched input 'RRV0' expecting 'RRV'
[@0,0:3='RRV0',1:0]
[@1,4:4='#',,1:4]
[@2,5:7='ABC',1:5]
[@3,10:9='',,2:0]
第1行:0不匹配的输入“RRV0”应为“RRV”
我可以看到第一个令牌是ID,值为“RRV0”

我试着重新安排lexer项目的顺序。我还尝试通过显式匹配语法规则(而不是通过显式lexer项)来使用隐式lexer项。我也试着让火柴不贪婪。这些对我来说并不成功

如果我将lexed ID项更改为不匹配大写字母,那么RRV项确实匹配,解析将更进一步

我从ANTLR 4.1开始就有同样的问题

我在ANTLRWorks和命令行中签入,两种方式的结果相同


如何更改语法以优先匹配lexer项RRV而不是ID?

仅当两个不同的lexer规则匹配相同长度的令牌时,语法顺序解析策略才适用。当长度不同时,最长的总是赢。在您的情况下,
ID
规则匹配长度为4的标记,这比仅匹配3个字符的
RRV
标记长

这种策略在Java等语言中尤其重要。考虑以下输入:

String className = "";
以及以下两条语法规则(略为简化):


如果我们只考虑语法顺序,那么输入
className
将生成一个关键字,后跟标识符
Name
。重新排列规则并不能解决问题,因为这样就无法创建
标记,即使对于输入

,这也是非常有意义的。语法是否可以编写为显式匹配“RRV”作为标记?我猜我需要选择匹配ID,然后使用进一步的代码检查ID是否为“RRV”
CLASS : 'class';
ID : [a-zA-Z_] [a-zA-Z0-9_]*;