代码是怎么一步步变成可执行文件的?

这篇文章是关于Sunny大神在MDCC 2016 的 topic 《把玩编译器,Clang有意思》的学习笔记及实践。
相关链接:视频 PPT

Apple 编译器采用的是 Clang-LLVM 架构,Clang 作为编译器前端,LLVM 作为编译器后端,整体的架构如图:

图0:代码是怎么一步步变成可执行文件的?

编译器架构.png

采用这样的架构是因为,如果只有一个整体的编译过程,面对程序员编写的 M 种高级语言,面对不同机器所对应的 N 种可执行文件,我们需要 M*N 种编译器……
若是分为前后端,我们可以将 M 种高级语言编译为一个机器无关的中间代码,作为前后端的桥接语言,再交给不同编译器后端生成各种机器所需要的目标机器代码,大大简化了编译过程。

现在,我们来看代码是怎么一步步变成可执行文件的。

1.Preprocess – 预处理

处理‘#’开头的预处理指令,包括 import 头文件、macro(宏) 展开、条件预处理指令,删除注释,添加行号和文件名标识。

现在尝试预处理一个文件,看看是什么样子:

$clang -E main.m

图1:代码是怎么一步步变成可执行文件的?

预处理

…lots of codes

图2:代码是怎么一步步变成可执行文件的?

预处理

相关问题:每个头文件中都 import 基础库(Foundation等)或第三方库头文件,这些文件重复编译,代码量非常大,如上图而且不够整洁优雅。
优化:

  • 可用pch文件将这些库文件预编译,加快编译速度。
  • 或是当引入苹果自己的库时,可采用 @import 关键字引用这些库,告诉编译器去使用 modules 的引用形式。苹果已经将一些基础库进行了封装,生成一个已编译的 modules 文件列表,我们编译时,会首先从已编译文件里面寻找,若已存在这个编译文件,直接使用;若没有,再添加进来进行编译。

图3:代码是怎么一步步变成可执行文件的?

使用@import关键字时

2.Lexical Analysis – 词法分析

将预处理后的代码文本拆成 Token 流,并不进行语义校验。

$clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m 
//执行到词法分析这一步,并将 -dump-tokens 透传给编译器前端,将token打出来

图4:代码是怎么一步步变成可执行文件的?

代码被拆成了一个个Token

3.Semantic Analysis – 语法分析

由 Clang 中 Parser 和 Sema 配合完成

  • 验证语法是否正确
  • 提示各种错误警告提示
  • 根据设置语言的语法,形成语义结点,并将所有节点组合形成抽象语法树AST
$clang -fmodules -fsyntax-only -Xclang -ast-dump main.m 
//生成抽象语法树

图5:代码是怎么一步步变成可执行文件的?

生成了花花绿绿的语法树

另外,这步之后,在我们Run一个工程时,如果选择Analyze,这里会进行

Static Analysis – 静态分析

找出一些非语法性错误、若需要隐式转换,会在语法树中插入相应的转换节点。

图6:代码是怎么一步步变成可执行文件的?

Analyze

图7:代码是怎么一步步变成可执行文件的?

非语法性错误

这里,我试图用 copy 修饰一个可变对象,这样会造成这个属性虽然叫 “mutableArray”,但是它存储着一个不可变的对象。

4.CodeGen – IR 代码生成

语法树从顶至下遍历,翻译成LLVM 中间代码,作为前后端的桥接语言,是Clang 编译器前端的输出,LLVM 编译器后端的输入。
中间代码一般已经非常接近目标代码了,但跟目标机器和运行时环境无关。
同时,一个重要的作用是与 OC Runtime 进行桥接

  • 内存结构的生成:
    • Class/Meta Class/Protocol/Category 生成并存放在指定section中,_DATA 或 _objc_classrefs
    • Method/Ivar/Property 生成
    • 组成method_list/ivar_list/property_list 并填入Class
  • 为每个 Ivar 合成偏移值常量,其地址为对象的基地址 + 偏移量
  • 将语法树中的ObjCMessageExpr翻译成相应objc_msgSeng,对super关键字的调用翻译成objc_msgSendSuper
  • 根据修饰符strong/weak/copy/atomic 合成@property,自动实现setter/getter,处理@synthesize
  • 生成block_layout数据结构
    变量的capture _block _weak
    生成_block_invoke 函数
  • 分析对象引用关系,插入ARC代码
    自动调用[super dealloc]
    为每个拥有ivar 的 Class 合成 .cxx_destructor 方法来自动释放类的成员变量
    自动释放池的管理,将ObjcAutoreleasePoolStmt 转译成 objc_autoreleasePoolPush/Pop
$clang -S -fobjc-arc -emit-llvm main.m -o main.ll
//生成中间代码

图8:代码是怎么一步步变成可执行文件的?

中间代码的生成

这里我们可以看到一些熟悉的身影,比如 @objc_msgSend…

5.Optimize – 优化

$clang -O3 -S -fobjc-arc -emit-llvm main.m -o main.ll
//可采用不同优化级别优化中间代码

图9:代码是怎么一步步变成可执行文件的?

可以看到,优化后代码量减少

图10:代码是怎么一步步变成可执行文件的?

在Xcode中可以设置优化级别

LLVM Bitcode – 生成字节码

字节码是一种包含执行程序、由一序列 op 代码/数据对组成的二进制文件,但与特定机器码无关,需要直译器转译后才能生成机器码,可以看作是包含一个执行程序的二进制文件。

$clang -emit-llvm -c main.m -o main.bc
//形成二进制流

图11:代码是怎么一步步变成可执行文件的?

二进制流

6. Assemble – 生成 Target 相关汇编

$clang -S -fobjc-arc main.m -o main.s
//生成汇编代码

图12:代码是怎么一步步变成可执行文件的?

汇编代码

Assemble – 生成Target相关Object(Mach-o)

$clang -fmodules -c main.m -o main.o    
//Mach-o 是苹果系统的目标文件

图13:代码是怎么一步步变成可执行文件的?

生成的main.o文件

可以看到,生成的目标文件有 Mach Header 头部、Load Commands 加载命令、Section 区域、 Relocations 重定位信息、Symbol 符号表、String字符串表等。

可以用MachoView来打开 .o 文件
MachoView GitHub

7. Link – 链接,生成 Executable 可执行文件

$clang main.m -o main
$./main

//TODO

图14:代码是怎么一步步变成可执行文件的?

Clang-LLVM编译过程.png

经过这一步步,我们用各种高级语言编写的代码就转换成了机器可以看懂可以执行的目标代码了

余下全文(1/3)
分享这篇文章:

请关注我们:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注