第126集：中间表示简介

核心知识点讲解

为什么需要中间表示？

中间表示（Intermediate Representation，简称 IR）是编译器中连接前端和后端的桥梁，它是源程序的一种抽象表示形式，既独立于源语言，又独立于目标机器。

使用中间表示的主要原因：

语言无关性：
- 不同的源语言可以生成相同的中间表示
- 编译器后端可以处理多种源语言
- 减少重复实现工作
机器无关性：
- 中间表示独立于目标机器架构
- 同一中间表示可以生成不同机器的代码
- 提高编译器的可移植性
优化机会：
- 中间表示更适合进行代码优化
- 可以在中间表示上进行多轮优化
- 优化后的代码质量更高
模块化设计：
- 编译器可以分为前端、中端和后端
- 各部分可以独立开发和测试
- 便于编译器的维护和扩展
降低复杂度：
- 前端只需要关注生成中间表示
- 后端只需要关注从中间表示生成目标代码
- 中间端只需要关注优化

IR 的设计目标

一个好的中间表示应该满足以下设计目标：

表达能力：
- 能够准确表示源程序的语义
- 支持各种语言特性
- 能够表示控制流、数据流和副作用
简洁性：
- 语法简单，易于处理
- 减少冗余信息
- 便于实现分析和优化算法
效率：
- 生成和处理的效率高
- 存储空间占用小
- 支持快速的分析和转换
可优化性：
- 便于进行各种优化
- 能够暴露优化机会
- 支持数据流分析
可移植性：
- 与具体的源语言和目标机器无关
- 能够在不同的编译器架构中使用
可读性：
- 易于人类理解
- 便于调试和验证

常见 IR 类型

1. 抽象语法树 (AST)

抽象语法树（Abstract Syntax Tree，简称 AST）是源代码的树形表示，它保留了程序的结构信息，但省略了一些语法细节。

特点：

结构紧凑，保留了程序的层次结构
易于生成和遍历
适合进行语义分析和类型检查
不适合进行复杂的代码优化

示例：

对于表达式 a + b * c，AST 如下：

    +
   / \
  a   *
     / \
    b   c

2. 三地址码 (TAC)

三地址码（Three-Address Code）是一种线性的中间表示，每条指令最多有三个操作数，通常是形如 x = y op z 的形式。

特点：

结构简单，类似于汇编语言
易于进行代码优化
支持各种优化技术
是最常用的中间表示之一

指令类型：

算术运算：x = y + z
赋值操作：x = y
条件跳转：if x goto L
无条件跳转：goto L
函数调用：call f, n
返回语句：return x

示例：

对于表达式 a + b * c，三地址码如下：

t1 = b * c
t2 = a + t1

3. 静态单赋值形式 (SSA)

静态单赋值形式（Static Single Assignment，简称 SSA）是一种特殊的中间表示，其中每个变量只被赋值一次。

特点：

每个变量只被赋值一次
使用 Φ 函数处理分支合并
便于进行数据流分析
支持更有效的优化

示例：

对于代码：

if (x > 0) {
    y = x + 1;
} else {
    y = x - 1;
}
z = y;

SSA 形式如下：

if (x > 0) goto L1
y1 = x - 1
goto L2
L1:
y2 = x + 1
L2:
y3 = Φ(y1, y2)
z = y3

4. 四元式

四元式（Quadruple）是一种类似于三地址码的中间表示，通常表示为一个四元组 (op, arg1, arg2, result)。

特点：

结构清晰，易于实现
便于进行代码优化
支持各种指令类型

示例：

对于表达式 a + b * c，四元式如下：

(*, b, c, t1)
(+, a, t1, t2)

5. 三元式

三元式（Triple）是一种更紧凑的中间表示，使用指令的位置来引用结果，通常表示为一个三元组 (op, arg1, arg2)。

特点：

存储空间小
但不便于进行代码优化
特别是公共子表达式消除

示例：

对于表达式 a + b * c，三元式如下：

(1) (*, b, c)
(2) (+, a, (1))

6. 间接三元式

间接三元式（Indirect Triple）是三元式的一种改进形式，它使用一个指针数组来引用三元式，便于进行代码优化。

特点：

存储空间小
便于进行代码优化
特别是公共子表达式消除

示例：

对于表达式 a + b * c，间接三元式如下：

三元式表：

(1) (*, b, c)
(2) (+, a, (1))

指针数组：

[1, 2]

7. 字节码

字节码（Bytecode）是一种更接近机器语言的中间表示，通常用于解释执行或即时编译（JIT）。

特点：

紧凑，便于存储和传输
易于解释执行
适合动态语言
例如 Java 字节码、Python 字节码

示例：

Java 字节码示例：

0: bipush        10
2: istore_1
3: bipush        20
5: istore_2
6: iload_1
7: iload_2
8: iadd
9: istore_3
10: return

8. LLVM IR

LLVM IR 是一种类型化的中间表示，由 LLVM 项目开发，具有很强的表达能力和优化能力。

特点：

类型化，支持丰富的类型系统
模块化，支持链接和优化
可移植，支持多种目标机器
是现代编译器常用的中间表示

示例：

define i32 @add(i32 %a, i32 %b) {
entry:
  %sum = add nsw i32 %a, %b
  ret i32 %sum
}

选择合适的 IR

选择中间表示时需要考虑以下因素：

编译目标：
- 解释执行：适合使用字节码
- 静态编译：适合使用三地址码或 SSA
- 即时编译：适合使用字节码或 SSA
语言特性：
- 静态类型语言：适合使用类型化的 IR
- 动态类型语言：适合使用灵活的 IR
- 函数式语言：适合使用 SSA
优化需求：
- 简单优化：使用三地址码
- 复杂优化：使用 SSA
- 跨过程优化：需要支持过程间分析的 IR
实现复杂度：
- 简单编译器：使用 AST 或三地址码
- 复杂编译器：使用 SSA 或 LLVM IR
工具支持：
- 现有框架：使用框架支持的 IR
- 自定义实现：根据需求选择

实用案例分析

IR 在编译器中的应用

编译器前端到中端

编译器前端将源代码转换为中间表示：

词法分析：将源代码分解为词法单元
语法分析：构建抽象语法树
语义分析：进行类型检查和符号表构建
IR 生成：将 AST 转换为三地址码或其他 IR

示例：

源代码：

int add(int a, int b) {
    return a + b;
}

生成的三地址码：

function add(a, b)
    t1 = a + b
    return t1
end function

中端优化

中端对中间表示进行各种优化：

局部优化：
- 常量折叠
- 死代码消除
- 公共子表达式消除
全局优化：
- 循环不变代码外提
- 强度削弱
- 归纳变量消除
过程间优化：
- 内联展开
- 常量传播
- 死函数消除

示例：

优化前的三地址码：

t1 = 2 + 3
t2 = x * t1
t3 = 2 + 3
t4 = y * t3

优化后的三地址码：

t1 = 5
t2 = x * t1
t4 = y * t1

中端到后端

后端将优化后的中间表示转换为目标代码：

指令选择：选择合适的目标机器指令
寄存器分配：为变量分配寄存器
指令调度：优化指令执行顺序
代码生成：生成目标机器代码

示例：

中间表示：

t1 = a + b
t2 = t1 * c
return t2

生成的 x86 汇编：

addl    %ebx, %eax
imull   %ecx, %eax
ret

不同 IR 的比较

表达能力比较

IR 类型	表达能力	适合场景
AST	高	语义分析、类型检查
三地址码	中	一般优化、代码生成
SSA	高	复杂优化、数据流分析
四元式	中	简单编译器、教学
三元式	中	空间受限环境
字节码	中	解释执行、JIT 编译
LLVM IR	高	现代编译器、多语言支持

优化能力比较

IR 类型	优化能力	优势
AST	低	结构清晰，易于分析
三地址码	中	支持基本优化
SSA	高	支持复杂优化和数据流分析
四元式	中	结构清晰，易于优化
三元式	低	空间高效，但优化困难
字节码	中	适合解释执行优化
LLVM IR	高	支持丰富的优化技术

实现复杂度比较

IR 类型	实现复杂度	适用场景
AST	低	简单编译器、快速原型
三地址码	中	中小型编译器
SSA	高	大型编译器、需要复杂优化
四元式	中	教学、简单编译器
三元式	中	空间受限环境
字节码	高	解释器、JIT 编译器
LLVM IR	高	现代编译器、工业级应用

实用案例分析

IR 实现示例

三地址码实现

实现一个简单的三地址码生成器：

class ThreeAddressCode:
    def __init__(self):
        self.instructions = []
        self.temp_count = 0
    
    def new_temp(self):
        temp = f't{self.temp_count}'
        self.temp_count += 1
        return temp
    
    def emit(self, op, args):
        instr = {'op': op, 'args': args}
        self.instructions.append(instr)
        return instr
    
    def generate(self, ast):
        # 递归遍历 AST 生成三地址码
        if ast['type'] == 'BinaryOp':
            left = self.generate(ast['left'])
            right = self.generate(ast['right'])
            temp = self.new_temp()
            self.emit(ast['op'], [temp, left, right])
            return temp
        elif ast['type'] == 'Identifier':
            return ast['name']
        elif ast['type'] == 'Number':
            return str(ast['value'])
        else:
            return None
    
    def __str__(self):
        result = []
        for instr in self.instructions:
            if instr['op'] in ['+', '-', '*', '/']:
                temp, left, right = instr['args']
                result.append(f'{temp} = {left} {instr["op"]} {right}')
            elif instr['op'] == 'assign':
                dest, src = instr['args']
                result.append(f'{dest} = {src}')
            elif instr['op'] == 'return':
                result.append(f'return {instr["args"][0]}')
        return '\n'.join(result)

# 示例 AST
ast = {
    'type': 'BinaryOp',
    'op': '+',
    'left': {'type': 'Identifier', 'name': 'a'},
    'right': {
        'type': 'BinaryOp',
        'op': '*',
        'left': {'type': 'Identifier', 'name': 'b'},
        'right': {'type': 'Identifier', 'name': 'c'}
    }
}

# 生成三地址码
tac = ThreeAddressCode()
tac.generate(ast)
print(tac)

输出：

t0 = b * c
t1 = a + t0

SSA 实现

实现一个简单的 SSA 生成器：

class SSA:
    def __init__(self):
        self.instructions = []
        self.temp_count = 0
        self.block_count = 0
    
    def new_temp(self):
        temp = f't{self.temp_count}'
        self.temp_count += 1
        return temp
    
    def new_block(self):
        block = f'L{self.block_count}'
        self.block_count += 1
        return block
    
    def emit(self, instr):
        self.instructions.append(instr)
    
    def generate_phi(self, var, values, blocks):
        # 生成 Φ 函数
        self.emit(f'{var} = phi({", ".join([f"{v} from {b}" for v, b in zip(values, blocks)])})')
    
    def generate(self, ast):
        # 简化实现，仅处理表达式
        if ast['type'] == 'BinaryOp':
            left = self.generate(ast['left'])
            right = self.generate(ast['right'])
            temp = self.new_temp()
            self.emit(f'{temp} = {left} {ast["op"]} {right}')
            return temp
        elif ast['type'] == 'Identifier':
            return ast['name']
        elif ast['type'] == 'Number':
            return str(ast['value'])
        else:
            return None
    
    def __str__(self):
        return '\n'.join(self.instructions)

# 示例 AST
ast = {
    'type': 'BinaryOp',
    'op': '+',
    'left': {'type': 'Identifier', 'name': 'a'},
    'right': {
        'type': 'BinaryOp',
        'op': '*',
        'left': {'type': 'Identifier', 'name': 'b'},
        'right': {'type': 'Identifier', 'name': 'c'}
    }
}

# 生成 SSA
ssa = SSA()
ssa.generate(ast)
print(ssa)

输出：

t0 = b * c
t1 = a + t0

IR 优化示例

常量折叠

常量折叠是一种简单但有效的优化技术，它在编译时计算常量表达式的值。

优化前：

t1 = 2 + 3
t2 = x * t1
t3 = 5 * 6
t4 = y + t3

优化后：

t1 = 5
t2 = x * t1
t3 = 30
t4 = y + t3

公共子表达式消除

公共子表达式消除（Common Subexpression Elimination，简称 CSE）是一种优化技术，它避免重复计算相同的表达式。

优化前：

t1 = a + b
t2 = c * d
t3 = a + b
t4 = t3 + t2

优化后：

t1 = a + b
t2 = c * d
t4 = t1 + t2

死代码消除

死代码消除（Dead Code Elimination，简称 DCE）是一种优化技术，它删除不会执行的代码或计算结果不会被使用的代码。

优化前：

t1 = a + b
if (false) {
    t2 = t1 * 2
}
t3 = c + d

优化后：

t3 = c + d

实用案例分析

编译器中的 IR 应用

GCC 编译器

GCC 编译器使用多种中间表示：

GIMPLE：一种基于三地址码的中间表示，用于中端优化
RTL（Register Transfer Language）：一种更接近机器语言的中间表示，用于后端代码生成

GIMPLE 示例：

t1 = a + b
t2 = t1 * c
return t2

LLVM 编译器

LLVM 编译器使用 LLVM IR 作为中间表示：

LLVM IR：一种类型化的中间表示，支持丰富的类型系统
支持多种优化：从简单的窥孔优化到复杂的跨过程优化
可序列化：可以存储为位码（bitcode）格式

LLVM IR 示例：

define i32 @add(i32 %a, i32 %b) {
entry:
  %sum = add nsw i32 %a, %b
  ret i32 %sum
}

Java 编译器

Java 编译器使用字节码作为中间表示：

Java 字节码：一种栈式虚拟机的指令集
由 JVM 解释执行：或通过 JIT 编译为机器码
跨平台：一次编译，到处运行

Java 字节码示例：

0: bipush        10
2: istore_1
3: bipush        20
5: istore_2
6: iload_1
7: iload_2
8: iadd
9: istore_3
10: return

IR 的选择与设计

为简单语言选择 IR

对于简单的语言，如小型脚本语言或教学语言，可以选择简单的 IR：

AST：适合进行语义分析和类型检查
三地址码：适合进行基本优化和代码生成
实现简单：开发周期短，易于理解

为复杂语言选择 IR

对于复杂的语言，如 C++ 或 Java，可以选择更强大的 IR：

SSA：适合进行复杂的代码优化
LLVM IR：利用现有的优化基础设施
支持复杂特性：如泛型、异常处理等

为特定目标选择 IR

对于特定的目标，如嵌入式系统或 Web 应用，可以选择适合的 IR：

嵌入式系统：选择空间高效的 IR，如三元式
Web 应用：选择适合 JIT 编译的 IR，如字节码
高性能计算：选择支持向量化和并行化的 IR

IR 的发展趋势

现代 IR 的特点

类型化：
- 支持丰富的类型系统
- 便于进行类型检查和优化
- 如 LLVM IR、MLIR
模块化：
- 支持模块化设计和链接
- 便于进行跨模块优化
- 如 LLVM IR 的模块系统
可扩展性：
- 支持自定义类型和操作
- 便于添加新的语言特性
- 如 MLIR 的可扩展设计
工具生态：
- 丰富的分析和优化工具
- 可视化和调试工具
- 如 LLVM 的工具链

新兴 IR 技术

MLIR（Multi-Level IR）：
- 由 LLVM 项目开发
- 支持多层次的抽象
- 适合机器学习和领域特定语言
WebAssembly：
- 一种面向 Web 的中间表示
- 紧凑、安全、高效
- 支持多种语言编译到 Web
RISC-V 中间表示：
- 基于 RISC-V 指令集
- 简洁、可扩展
- 适合嵌入式和 IoT 设备
图形化 IR：
- 使用图形表示程序
- 便于进行并行化分析和优化
- 适合 GPU 和异构计算

小结

中间表示是编译器中连接前端和后端的桥梁，它是源程序的一种抽象表示形式，既独立于源语言，又独立于目标机器。

中间表示的主要作用：

语言无关性：不同的源语言可以生成相同的中间表示
机器无关性：同一中间表示可以生成不同机器的代码
优化机会：中间表示更适合进行代码优化
模块化设计：编译器可以分为前端、中端和后端

常见的中间表示类型：

AST：适合语义分析和类型检查
三地址码：适合基本优化和代码生成
SSA：适合复杂优化和数据流分析
字节码：适合解释执行和 JIT 编译
LLVM IR：适合现代编译器和多语言支持

选择中间表示时需要考虑编译目标、语言特性、优化需求、实现复杂度和工具支持等因素。

中间表示是现代编译器设计的核心组件之一，它的选择和设计直接影响编译器的性能、可维护性和代码质量。随着编译器技术的发展，中间表示也在不断演进，以适应新的语言特性和硬件架构。