第90集：语法错误处理策略

核心知识点讲解

错误检测

语法错误检测是语法分析器的基本功能，当输入不符合文法规则时，分析器应该能够及时发现并报告错误。常见的语法错误包括：

词法错误：无效的字符或词法单元
语法错误：不符合文法规则的语法结构
语义错误：语法正确但语义不合理的结构

在 Yacc/Bison 中，语法错误检测主要通过以下方式实现：

移进-归约冲突：当分析器无法确定是移进还是归约时
归约-归约冲突：当分析器无法确定使用哪个产生式进行归约时
错误产生式：显式定义的错误处理规则

错误报告

一个好的错误报告应该包含以下信息：

错误位置：行号、列号，精确指出错误发生的位置
错误原因：清晰说明错误的类型和原因
预期内容：指出期望的语法结构
错误上下文：显示错误附近的代码，帮助用户理解错误

示例错误报告：

错误: 在第5行第10列附近
意外的符号 '}'，期望 ';' 或 '{'
    4 | int main() {
    5 |     printf("Hello") }
      |          ^ 这里

错误恢复

错误恢复是指分析器在遇到错误后，尝试恢复正常分析过程的能力。常见的错误恢复策略包括：

恐慌模式恢复：跳过输入直到找到同步标记（如分号、大括号等）
短语级恢复：替换、插入或删除一个或多个标记，尝试使分析继续
错误产生式：在文法中显式定义错误处理规则
全局纠正：尝试找到最小的修改，使输入变为有效的语法结构

恐慌模式实现

恐慌模式是最常用的错误恢复策略之一，其基本思想是：

当遇到错误时，分析器进入"恐慌"状态
丢弃输入标记，直到找到一个预定义的同步标记
弹出分析栈，直到找到一个可以继续分析的状态
恢复正常的分析过程

在 Yacc/Bison 中，恐慌模式可以通过以下方式实现：

/* 定义同步标记 */
%token SEMI LBRACE RBRACE IF WHILE FOR

/* 错误产生式 */
stmt: expr SEMI
    | error SEMI { yyerrok; } // 跳过到下一个分号
    ;

block: LBRACE stmts RBRACE
    | error RBRACE { yyerrok; } // 跳过到下一个右大括号
    ;

/* 同步标记声明 */
%expect 0 // 期望0个冲突
%error-verbose // 启用详细错误信息

实用案例分析

案例：简单表达式解析器的错误处理

让我们创建一个带有错误处理的简单表达式解析器：

Yacc 文件：

/* parser.y */
%{
#include <stdio.h>
#include <stdlib.h>

int yylineno = 1;
int yylex();
void yyerror(const char* s);
%}

%token NUMBER
%token ADD SUB MUL DIV
%token LPAREN RPAREN
%token SEMI
%token EOL

%left ADD SUB
%left MUL DIV
%nonassoc UMINUS

%%

calc: /* 空规则 */
    | calc expr EOL {
        printf("结果: %d\n", $2);
    }
    | calc error EOL {
        yyerrok;
        fprintf(stderr, "错误: 表达式语法错误\n");
    }
    | calc EOL
    ;

expr: NUMBER
    | expr ADD expr { $$ = $1 + $3; }
    | expr SUB expr { $$ = $1 - $3; }
    | expr MUL expr { $$ = $1 * $3; }
    | expr DIV expr { $$ = $1 / $3; }
    | SUB expr %prec UMINUS { $$ = -$2; }
    | LPAREN expr RPAREN { $$ = $2; }
    | error { $$ = 0; } // 错误产生式
    ;

%%

void yyerror(const char* s) {
    fprintf(stderr, "错误: %s 在第 %d 行\n", s, yylineno);
}

int main() {
    printf("带错误处理的计算器\n");
    printf("输入表达式，例如: 5 + 3 * (4 - 2)\n");
    return yyparse();
}

Lex 文件：

/* lexer.l */
%{
#include "y.tab.h"
%}

%%

[0-9]+      { yylval = atoi(yytext); return NUMBER; }
"+"         { return ADD; }
"-"         { return SUB; }
"*"         { return MUL; }
"/"         { return DIV; }
"("         { return LPAREN; }
")"         { return RPAREN; }
";"         { return SEMI; }
"\n"        { yylineno++; return EOL; }
[ \t]       { /* 忽略空白字符 */ }
.

%%

int yywrap() {
    return 1;
}

案例：带有详细错误报告的语法分析器

让我们创建一个带有详细错误报告的语法分析器，支持变量声明和赋值：

Yacc 文件：

/* parser.y */
%{
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int yylineno = 1;
int yylex();
void yyerror(const char* s);

// 全局变量，用于存储当前标记的位置
int current_col = 1;
%}

%token <int> NUMBER
%token <char*> IDENTIFIER
%token <char*> TYPE
%token ASSIGN
%token SEMI
%token EOL

%type <int> expr

%%

program: /* 空规则 */
       | program stmt EOL
       | program error EOL {
           yyerrok;
           fprintf(stderr, "错误: 语句语法错误\n");
       }
       | program EOL
       ;

stmt: declaration
    | assignment
    | expr SEMI { $$ = $1; }
    ;

declaration: TYPE IDENTIFIER SEMI {
    printf("声明变量: %s %s\n", $1, $2);
    free($1);
    free($2);
}
| error SEMI {
    yyerrok;
    fprintf(stderr, "错误: 声明语法错误\n");
}
;

assignment: IDENTIFIER ASSIGN expr SEMI {
    printf("赋值: %s = %d\n", $1, $3);
    free($1);
}
| error SEMI {
    yyerrok;
    fprintf(stderr, "错误: 赋值语法错误\n");
}
;

expr: NUMBER { $$ = $1; }
    | IDENTIFIER { 
        $$ = 0; 
        fprintf(stderr, "警告: 使用未初始化变量 %s\n", $1);
        free($1);
    }
    | expr '+' expr { $$ = $1 + $3; }
    | expr '-' expr { $$ = $1 - $3; }
    | expr '*' expr { $$ = $1 * $3; }
    | expr '/' expr { $$ = $1 / $3; }
    | '(' expr ')' { $$ = $2; }
    | error { 
        $$ = 0; 
        fprintf(stderr, "错误: 表达式语法错误\n");
    }
    ;

%%

void yyerror(const char* s) {
    fprintf(stderr, "错误: %s\n", s);
    fprintf(stderr, "位置: 第 %d 行第 %d 列\n", yylineno, current_col);
}

int main() {
    printf("带详细错误报告的解析器\n");
    printf("支持变量声明和赋值，例如: int x; x = 5 + 3;\n");
    return yyparse();
}

Lex 文件：

/* lexer.l */
%{
#include "y.tab.h"
#include <string.h>

extern int current_col;
%}

%%

[0-9]+      { 
    yylval = atoi(yytext); 
    current_col += strlen(yytext); 
    return NUMBER; 
}
"int"       { 
    yylval = strdup(yytext); 
    current_col += strlen(yytext); 
    return TYPE; 
}
"double"    { 
    yylval = strdup(yytext); 
    current_col += strlen(yytext); 
    return TYPE; 
}
"float"     { 
    yylval = strdup(yytext); 
    current_col += strlen(yytext); 
    return TYPE; 
}
"char"      { 
    yylval = strdup(yytext); 
    current_col += strlen(yytext); 
    return TYPE; 
}
[a-zA-Z_][a-zA-Z0-9_]* { 
    yylval = strdup(yytext); 
    current_col += strlen(yytext); 
    return IDENTIFIER; 
}
"="         { 
    current_col++; 
    return ASSIGN; 
}
";"         { 
    current_col++; 
    return SEMI; 
}
"+"         { 
    current_col++; 
    return '+'; 
}
"-"         { 
    current_col++; 
    return '-'; 
}
"*"         { 
    current_col++; 
    return '*'; 
}
"/"         { 
    current_col++; 
    return '/'; 
}
"("         { 
    current_col++; 
    return '('; 
}
")"         { 
    current_col++; 
    return ')'; 
}
"\n"        { 
    yylineno++; 
    current_col = 1; 
    return EOL; 
}
[ \t]       { 
    current_col += strlen(yytext); 
    /* 忽略空白字符 */ 
}
.           { 
    current_col++; 
    fprintf(stderr, "警告: 未知字符 '%c'\n", yytext[0]); 
}

%%

int yywrap() {
    return 1;
}

案例：使用错误产生式的高级错误处理

让我们创建一个使用错误产生式的高级错误处理示例：

Yacc 文件：

/* parser.y */
%{
#include <stdio.h>
#include <stdlib.h>

int yylineno = 1;
int yylex();
void yyerror(const char* s);
%}

%token NUMBER
%token IDENTIFIER
%token TYPE
%token ASSIGN
%token SEMI
%token LPAREN RPAREN
%token LBRACE RBRACE
%token IF WHILE FOR
%token THEN ELSE
%token EOL

%%

program: /* 空规则 */
       | program stmt EOL
       | program EOL
       ;

stmt: declaration
    | assignment
    | if_stmt
    | while_stmt
    | for_stmt
    | block
    | error SEMI { yyerrok; fprintf(stderr, "错误: 语句语法错误，已跳过到下一个分号\n"); }
    ;

declaration: TYPE IDENTIFIER SEMI {
    printf("声明变量: %s %s\n", $1, $2);
}
| TYPE error SEMI {
    yyerrok;
    fprintf(stderr, "错误: 声明语法错误，变量名无效\n");
}
;

assignment: IDENTIFIER ASSIGN expr SEMI {
    printf("赋值: %s = <expression>\n", $1);
}
| IDENTIFIER error expr SEMI {
    yyerrok;
    fprintf(stderr, "错误: 赋值语法错误，期望 '='\n");
}
;

expr: NUMBER
    | IDENTIFIER
    | expr '+' expr
    | expr '-' expr
    | expr '*' expr
    | expr '/' expr
    | '(' expr ')'
    | '(' error ')'
    {
        yyerrok;
        fprintf(stderr, "错误: 括号内表达式语法错误\n");
    }
    ;

if_stmt: IF expr THEN stmt
       | IF expr THEN stmt ELSE stmt
       | IF error THEN stmt
       {
           yyerrok;
           fprintf(stderr, "错误: if 条件语法错误\n");
       }
       | IF expr error stmt
       {
           yyerrok;
           fprintf(stderr, "错误: if 语句语法错误，期望 'then'\n");
       }
       ;

while_stmt: WHILE expr stmt
          | WHILE error stmt
          {
              yyerrok;
              fprintf(stderr, "错误: while 条件语法错误\n");
          }
          ;

for_stmt: FOR '(' expr SEMI expr SEMI expr ')' stmt
        | FOR '(' error ')' stmt
        {
            yyerrok;
            fprintf(stderr, "错误: for 循环语法错误\n");
        }
        ;

block: LBRACE stmts RBRACE
     | LBRACE error RBRACE
     {
         yyerrok;
         fprintf(stderr, "错误: 代码块语法错误\n");
     }
     ;

stmts: /* 空规则 */
     | stmts stmt
     ;

%%

void yyerror(const char* s) {
    fprintf(stderr, "错误: %s 在第 %d 行\n", s, yylineno);
}

int main() {
    printf("带高级错误处理的解析器\n");
    printf("支持变量声明、赋值、if/while/for 语句和代码块\n");
    return yyparse();
}

Lex 文件：

/* lexer.l */
%{
#include "y.tab.h"
#include <string.h>
%}

%%

[0-9]+      { yylval = atoi(yytext); return NUMBER; }
"int"       { yylval = strdup(yytext); return TYPE; }
"double"    { yylval = strdup(yytext); return TYPE; }
"float"     { yylval = strdup(yytext); return TYPE; }
"char"      { yylval = strdup(yytext); return TYPE; }
"if"        { return IF; }
"while"     { return WHILE; }
"for"       { return FOR; }
"then"      { return THEN; }
"else"      { return ELSE; }
[a-zA-Z_][a-zA-Z0-9_]* { yylval = strdup(yytext); return IDENTIFIER; }
"="         { return ASSIGN; }
";"         { return SEMI; }
"+"         { return '+'; }
"-"         { return '-'; }
"*"         { return '*'; }
"/"         { return '/'; }
"("         { return LPAREN; }
")"         { return RPAREN; }
"{"         { return LBRACE; }
"}"         { return RBRACE; }
"\n"        { yylineno++; return EOL; }
[ \t]       { /* 忽略空白字符 */ }
.

%%

int yywrap() {
    return 1;
}

代码优化建议

错误信息优化：
- 提供更具体、更有帮助的错误信息
- 包含错误上下文，显示错误附近的代码
- 使用颜色或其他格式突出显示错误位置
错误恢复策略优化：
- 根据不同的语法结构使用不同的同步标记
- 实现更智能的错误恢复，减少错误级联
- 考虑使用多种错误恢复策略的组合
性能优化：
- 错误处理代码应该高效，避免影响正常分析的性能
- 对于大型输入，考虑使用更高效的错误定位算法
- 缓存错误信息，避免重复计算
用户体验优化：
- 提供错误修复建议，帮助用户快速解决问题
- 实现错误计数，在结束时显示所有错误
- 对于常见错误，提供详细的帮助信息
可维护性优化：
- 将错误处理逻辑与正常分析逻辑分离
- 使用统一的错误处理接口
- 为错误处理代码添加详细的注释

总结

本集我们深入学习了语法错误处理的各种策略和实现方法，包括：

错误检测的基本原理和方法
错误报告的设计和实现
错误恢复的常见策略（恐慌模式、短语级恢复等）
恐慌模式的具体实现
实际案例：带有错误处理的表达式解析器、详细错误报告的解析器、使用错误产生式的高级错误处理
错误处理相关的代码优化建议

良好的错误处理是编译器质量的重要标志，它直接影响用户体验和开发效率。通过掌握这些错误处理策略，你可以构建更健壮、更用户友好的语法分析器。在后续的课程中，我们将学习如何将这些技术应用到完整的编译器前端中。