Java ANTLR4-我的语言中的可选空白_Java_Parsing_Antlr_Antlr4

Java ANTLR4-我的语言中的可选空白

java parsing antlr antlr4

Java ANTLR4-我的语言中的可选空白,java,parsing,antlr,antlr4,Java,Parsing,Antlr,Antlr4,我正在用ANTLR4为一种编程语言编写解析器。大多数情况下，我想忽略空白，但是在某些情况下，使用它来表示标记之间的边界是至关重要的例如，当解析操作员应用程序时，我的当前解析器将把this+that作为一个长标识符。这将导致解析器失败，因为名称中不允许使用符号。我目前跳过了所有的空白，这导致了这个问题，但我找不到一个解决方案，让我可以选择空白，但也使用它来指定这些边界下面是我的解析器以及我试图解析的测试代码解析器： grammar archie; // Parser Rules progr

我正在用ANTLR4为一种编程语言编写解析器。大多数情况下，我想忽略空白，但是在某些情况下，使用它来表示标记之间的边界是至关重要的

例如，当解析操作员应用程序时，我的当前解析器将把

this+that

作为一个长标识符。这将导致解析器失败，因为名称中不允许使用符号。我目前跳过了所有的空白，这导致了这个问题，但我找不到一个解决方案，让我可以选择空白，但也使用它来指定这些边界

下面是我的解析器以及我试图解析的测试代码

解析器：

grammar archie;
// Parser Rules

program:  line* EOF;

line: (element | COMMENT)  (';' | '\n' | ';\n')+;

//assignment: identifier  EQ  element;

element:
    //Function Call
    element  elementList  |

    //Function Literal
    nameList  FARROW  element  |

    //Identifier
    identifier  |

    //CombinedID
    element  (DOT name)+ |

    //assignment
    identifier EQ element |

    O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK |

    element name element
;


elementList: O_R_BRACK  element?  (COMMA  element )* C_R_BRACK;

identifier: (name (DOT name)*);

nameList: O_R_BRACK name? (COMMA name)* C_R_BRACK;
name: (ALPHABET | SYMBOL+) (ALPHABET | NUMERIC)*;

NUMERIC: [0-9];
ALPHABET: [a-zA-Z];
SYMBOL : [~!$^*&+#<>?|];
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' (ALPHABET | SYMBOL | NUMERIC | WS)*;

DOT: '.';
COMMA: ',';

EQ: '=';

O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';

问题是，术语解析没有明确定义

myvar = this + that

被解析为

element -> identifier EQ element  <- identifier = myvar, 
                                     element = "this + that"

this + that -> element name element

元素

可能正在尽可能多地分析所有字符：

element(this) name(+that) element() <- error
element(this) name(+tha) element(t)

element（this）name（+that）element（）据我所知，您的主要问题是语法试图分别对每个字符进行lex运算，然后解析它们。这是行不通的，lexers应该对语言中的单个“单词”进行lex，这就是为什么你的语法如此怪异的原因
您的另一个问题是“test+test”正在解析为“test”“+test”。相反，我建议使用以下语法，它允许使用符号名称，但不能与字母数字名称混合使用
grammar archie;
// Parser Rules

programme:  line* EOF;

line
 : element (';' | '\n')+
 | COMMENT
 ;

//assignment: identifier  EQ  element;

element
 : element  elementList         //Function Call
 | nameList  FARROW  element    //Function Literal
 | identifier                   //Identifier
 | element  (DOT NAME)+         //CombinedID
 | identifier EQ element        //assignment
 | O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK
 | element NAME element
 ;


elementList: O_R_BRACK  element?  (COMMA  element)* C_R_BRACK;

identifier: NAME (DOT NAME)*;

nameList: O_R_BRACK (NAME COMMA)* (NAME COMMA?)? C_R_BRACK;

NAME
 : [A-Za-z_][A-Za-z0-9_]*
 | [~!$^*&+#<>?|]+
 ;

FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' ~[\n]* '\n'+;

DOT: '.';
COMMA: ',';

EQ: '=';

O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';

之后：
抱歉，我意识到@thst首先回答了问题，但我正在研究语法解决方案，当我去测试它时，我的antlr4设置已经损坏，我正在修复它
element(this) name(+that) element() <- error
element(this) name(+tha) element(t)

grammar archie;
// Parser Rules

programme:  line* EOF;

line
 : element (';' | '\n')+
 | COMMENT
 ;

//assignment: identifier  EQ  element;

element
 : element  elementList         //Function Call
 | nameList  FARROW  element    //Function Literal
 | identifier                   //Identifier
 | element  (DOT NAME)+         //CombinedID
 | identifier EQ element        //assignment
 | O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK
 | element NAME element
 ;


elementList: O_R_BRACK  element?  (COMMA  element)* C_R_BRACK;

identifier: NAME (DOT NAME)*;

nameList: O_R_BRACK (NAME COMMA)* (NAME COMMA?)? C_R_BRACK;

NAME
 : [A-Za-z_][A-Za-z0-9_]*
 | [~!$^*&+#<>?|]+
 ;

FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' ~[\n]* '\n'+;

DOT: '.';
COMMA: ',';

EQ: '=';

O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';

this + that // (element (element (name this)) (name +) (element (name that)))
++that // (element (name ++that))
this+that // (element (element (name this)) (name +that) (element) and ERROR ERROR

this + that // (element (element this) + (element that))
++that // ERROR ERROR
that+that // (element (element this) + (element that))