使用PLY为PHP创建词法分析标记
我正在使用PLY构建一个PHP词法分析器,以便理解词法分析/解析背后的概念。我决定从一个非常简单的PHP代码块开始:使用PLY为PHP创建词法分析标记,php,parsing,lex,lexical-analysis,ply,Php,Parsing,Lex,Lexical Analysis,Ply,我正在使用PLY构建一个PHP词法分析器,以便理解词法分析/解析背后的概念。我决定从一个非常简单的PHP代码块开始: <?php if (isset($_REQUEST['name'])){ $name = $_REQUEST['name']; $msg = "Hello, " . $name . "!"; $encoded = htmlspecialchars($msg); } ?> 将所有东西转换成代币的最佳方式是什么?我的当前代码将
<?php if (isset($_REQUEST['name'])){
$name = $_REQUEST['name'];
$msg = "Hello, " . $name . "!";
$encoded = htmlspecialchars($msg);
}
?>
将所有东西转换成代币的最佳方式是什么?我的当前代码将$msg
识别为一个变量,=
识别为正确的标记,但行的其余部分“Hello,”$名称“!”
被视为一个不正确的令牌
我对这个痛苦的词法分析/解析的世界非常陌生,因此任何帮助都将不胜感激。以下是我当前的代码和结果:
import ply.lex as lex
states = (
)
delimeters = ('LPAREN', 'RPAREN', 'LBRACKET', 'RBRACKET')
tokens = delimeters + (
"CHAR",
"NUM",
"OPEN_TAG",
"CLOSE_TAG",
"php",
"VARIABLE",
"CONSTANT_ENCAPSED_STRING",
"ENCAPSED_AND_WHITESPACE",
"QUOTED_ENCAPSED_STRING",
"LCURLYBRACKET",
"RCURLYBRACKET",
"EQUALS",
"SEMICOLON",
"QUOTE",
"DOT",
"IF"
)
t_ignore = " \t"
t_CHAR = r"[a-z]"
t_LPAREN = r'\('
t_RPAREN = r'\)'
t_RBRACKET = r'\]'
t_LBRACKET = r'\['
t_RCURLYBRACKET = r'\}'
t_LCURLYBRACKET = r'\{'
t_EQUALS = r'='
t_SEMICOLON = r';'
t_DOT = r'\.'
def t_newline(t):
r'\n+'
t.lexer.lineno += t.value.count("\n")
def t_CONSTANT_ENCAPSED_STRING(t):
r"'([^\\']|\\(.|\n))*'"
t.lexer.lineno += t.value.count("\n")
return t
def t_QUOTED_ENCAPSED_STRING(t):
r"\"([^\\']|\\(.|\n))*\""
t.lexer.lineno += t.value.count("\n")
return t
def t_OPEN_TAG(t):
r'<[?%]((php[ \t\r\n]?)|=)?'
if '=' in t.value: t.type = 'OPEN_TAG_WITH_ECHO'
t.lexer.lineno += t.value.count("\n")
return t
def t_CLOSE_TAG(t):
r'[?%]>\r?\n?'
t.lexer.lineno += t.value.count("\n")
#t.lexer.begin('INITIAL')
return t
def t_VARIABLE(t):
r'\$[A-Za-z_][\w_]*'
return t
def t_QUOTE(t):
r'"'
def t_NUM(t):
r"\d+"
t.value = int(t.value)
return t
def t_error(t):
print t.lexer.current_state
print dir(t.lexer)
raise TypeError("unknown char '%s'"%(t.value))
string = """<?php if (isset($_REQUEST['name'])){
$name = $_REQUEST['name'];
$msg = "Hello, " . $name . "!";
$encoded = htmlspecialchars($msg);
}
?>"""
lex.lex()
lex.input(string)
for tok in iter(lex.token, None):
print repr(tok.type), repr(tok.value)
将ply.lex导入为lex
国家=(
)
delimeters=('LPAREN','rpare','LBRACKET','RBRACKET')
代币=delimeters+(
“CHAR”,
“NUM”,
“打开标签”,
“关闭标签”,
“php”,
“变量”,
“常数\u装箱\u字符串”,
“装箱和空白”,
“带引号的包裹字符串”,
“lcurlyblacket”,
“RCURLYBRAKET”,
“平等”,
“分号”,
“引用”,
“点”,
“如果”
)
t\u ignore=“\t”
t_CHAR=r“[a-z]”
t_LPAREN=r'\('
t_rpare=r'\)'
t\u RBRACKET=r'\]'
t_LBRACKET=r'\['
t\u RCURLYBRACKET=r'\}
t\u LCURLYBRACKET=r'\{'
t_等于r'='
t_分号=r';'
t_点=r'\.'
def t_新线(t):
r'\n+'
t、 lexer.lineno+=t.value.count(“\n”)
def t_常量_封装_字符串(t):
r“'([^\\']\\\(.|\n))*”
t、 lexer.lineno+=t.value.count(“\n”)
返回t
def t_带引号的包裹字符串(t):
r“\”([^\\']\\\(.| \n))*\“”
t、 lexer.lineno+=t.value.count(“\n”)
返回t
def t_打开_标签(t):
r'\r?\n?“
t、 lexer.lineno+=t.value.count(“\n”)
#t、 lexer.begin('首字母')
返回t
def t_变量(t):
r'\$[A-Za-z\][\w\]*'
返回t
定义t_报价(t):
r''
定义t_NUM(t):
r“\d+”
t、 value=int(t.value)
返回t
def t_错误(t):
打印t.lexer.current_状态
打印目录(t.lexer)
raise TypeError(“未知字符'%s'”(t.value))
字符串=“”
lex.lex()
lex.input(字符串)
对于iter中的tok(lex.token,无):
打印报告(tok.type),报告(tok.value)
结果:
'OPEN_TAG' '<?php '
'CHAR' 'i'
'CHAR' 'f'
'LPAREN' '('
'CHAR' 'i'
'CHAR' 's'
'CHAR' 's'
'CHAR' 'e'
'CHAR' 't'
'LPAREN' '('
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'RPAREN' ')'
'RPAREN' ')'
'LCURLYBRACKET' '{'
'VARIABLE' '$name'
'EQUALS' '='
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'SEMICOLON' ';'
'VARIABLE' '$msg'
'EQUALS' '='
'QUOTED_ENCAPSED_STRING' '"Hello, " . $name . "!"'
'SEMICOLON' ';'
'VARIABLE' '$encoded'
'EQUALS' '='
'CHAR' 'h'
'CHAR' 't'
'CHAR' 'm'
'CHAR' 'l'
'CHAR' 's'
'CHAR' 'p'
'CHAR' 'e'
'CHAR' 'c'
'CHAR' 'i'
'CHAR' 'a'
'CHAR' 'l'
'CHAR' 'c'
'CHAR' 'h'
'CHAR' 'a'
'CHAR' 'r'
'CHAR' 's'
'LPAREN' '('
'VARIABLE' '$msg'
'RPAREN' ')'
'SEMICOLON' ';'
'RCURLYBRACKET' '}'
'CLOSE_TAG' '?>'
“OPEN_TAG”事实证明,我的正则表达式中有一个输入错误导致了这个问题
将t_quoted_ENCAPSED_STRING
更新为以下内容允许应用程序将每个元素分解为它们自己的令牌:
def t_QUOTED_ENCAPSED_STRING(t):
r"\"([^\\"]|\\(.|\n))*\""
t.lexer.lineno += t.value.count("\n")
return t
现在,我运行应用程序,得到以下输出:
'OPEN_TAG' '<?php '
'CHAR' 'i'
'CHAR' 'f'
'LPAREN' '('
'CHAR' 'i'
'CHAR' 's'
'CHAR' 's'
'CHAR' 'e'
'CHAR' 't'
'LPAREN' '('
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'RPAREN' ')'
'RPAREN' ')'
'LCURLYBRACKET' '{'
'VARIABLE' '$name'
'EQUALS' '='
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'SEMICOLON' ';'
'VARIABLE' '$msg'
'EQUALS' '='
'QUOTED_ENCAPSED_STRING' '"Hello, "'
'DOT' '.'
'VARIABLE' '$name'
'DOT' '.'
'QUOTED_ENCAPSED_STRING' '"!"'
'SEMICOLON' ';'
'VARIABLE' '$encoded'
'EQUALS' '='
'CHAR' 'h'
'CHAR' 't'
'CHAR' 'm'
'CHAR' 'l'
'CHAR' 's'
'CHAR' 'p'
'CHAR' 'e'
'CHAR' 'c'
'CHAR' 'i'
'CHAR' 'a'
'CHAR' 'l'
'CHAR' 'c'
'CHAR' 'h'
'CHAR' 'a'
'CHAR' 'r'
'CHAR' 's'
'LPAREN' '('
'VARIABLE' '$msg'
'RPAREN' ')'
'SEMICOLON' ';'
'RCURLYBRACKET' '}'
'CLOSE_TAG' '?>'
“OPEN_TAG”事实证明,我的正则表达式中有一个输入错误导致了这个问题
将t_quoted_ENCAPSED_STRING
更新为以下内容允许应用程序将每个元素分解为它们自己的令牌:
def t_QUOTED_ENCAPSED_STRING(t):
r"\"([^\\"]|\\(.|\n))*\""
t.lexer.lineno += t.value.count("\n")
return t
现在,我运行应用程序,得到以下输出:
'OPEN_TAG' '<?php '
'CHAR' 'i'
'CHAR' 'f'
'LPAREN' '('
'CHAR' 'i'
'CHAR' 's'
'CHAR' 's'
'CHAR' 'e'
'CHAR' 't'
'LPAREN' '('
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'RPAREN' ')'
'RPAREN' ')'
'LCURLYBRACKET' '{'
'VARIABLE' '$name'
'EQUALS' '='
'VARIABLE' '$_REQUEST'
'LBRACKET' '['
'CONSTANT_ENCAPSED_STRING' "'name'"
'RBRACKET' ']'
'SEMICOLON' ';'
'VARIABLE' '$msg'
'EQUALS' '='
'QUOTED_ENCAPSED_STRING' '"Hello, "'
'DOT' '.'
'VARIABLE' '$name'
'DOT' '.'
'QUOTED_ENCAPSED_STRING' '"!"'
'SEMICOLON' ';'
'VARIABLE' '$encoded'
'EQUALS' '='
'CHAR' 'h'
'CHAR' 't'
'CHAR' 'm'
'CHAR' 'l'
'CHAR' 's'
'CHAR' 'p'
'CHAR' 'e'
'CHAR' 'c'
'CHAR' 'i'
'CHAR' 'a'
'CHAR' 'l'
'CHAR' 'c'
'CHAR' 'h'
'CHAR' 'a'
'CHAR' 'r'
'CHAR' 's'
'LPAREN' '('
'VARIABLE' '$msg'
'RPAREN' ')'
'SEMICOLON' ';'
'RCURLYBRACKET' '}'
'CLOSE_TAG' '?>'
“打开标签”