趣探 Mach-O:文件格式分析

548 查看

本文所读的源码,可以从这里找到,这是 Mach-O 系列的第一篇

我们的程序想要跑起来,肯定它的可执行文件格式要被操作系统所理解,比如 ELFLinux下可执行文件的格式,PE32/PE32+windows的可执行文件的格式,那么对于OS XiOS 来说 Mach-O 是其可执行文件的格式。

我们平时了解到的可执行文件、库文件、Dsym文件、动态库、动态连接器都是这种格式的。Mach-O 的组成结构如下图所示包括了HeaderLoad commandsData(包含Segement的具体数据)

11852671-9fde036a1ce9d902

Header 的结构

Mach-O的头部,使得可以快速确认一些信息,比如当前文件用于32位还是64位,对应的处理器是什么、文件类型是什么

可以拿下面的代码做一个例子

在终端执行以下命令,可以生成一个可执行文件a.out

我们可以使用MachOView(是一个查看MachO 格式文件信息的开源工具)来查看
.out文件的具体格式如何

12852671-542696fbc321ba2c

看到这里肯定有点懵比,不知道这是什么东西,下面看一下 header的数据结构

32位结构

64位架构

32位和64位架构的头文件,没有太大的区别,只是64位多了一个保留字段罢了

  • magic:魔数,用于快速确认该文件用于64位还是32位
  • cputype:CPU类型,比如 arm
  • cpusubtype:对应的具体类型,比如arm64、armv7
  • filetype:文件类型,比如可执行文件、库文件、Dsym文件,demo中是2 MH_EXECUTE,代表可执行文件

  • ncmds :加载命令条数
  • sizeofcmds:所有加载命令的大小
  • reserved:保留字段
  • flags:标志位,刚才demo中显示的都在这里了,其余的有兴趣可以阅读 mach o源码

随机地址空间

进程每一次启动,地址空间都会简单地随机化。

对于大多数应用程序来说,地址空间随机化是一个和他们完全不相关的实现细节,但是对于黑客来说,它具有重大的意义。

如果采用传统的方式,程序的每一次启动的虚拟内存镜像都是一致的,黑客很容易采取重写内存的方式来破解程序。采用ASLR可以有效的避免黑客攻击。

dyld

动态链接器,他是苹果开源的一个项目,可以在这里下载,当内核执行LC_DYLINK(后面会说到)时,连接器会启动,查找进程所依赖的动态库,并加载到内存中。

二级名称空间

这是dyld的一个独有特性,说是符号空间中还包括所在库的信息,这样子就可以让两个不同的库导出相同的符号,与其对应的是平坦名称空间

Load commands 结构

Load commands紧跟在头部之后,这些加载指令清晰地告诉加载器如何处理二进制数据,有些命令是由内核处理的,有些是由动态链接器处理的。在源码中有明显的注释来说明这些是动态连接器处理的。

这里列举几个看上去比较熟悉的….

load command的结构如下

通过 MachOView来继续查看刚才Demo中的Load commands的一些细节,LC_SEGMENT_64LC_SEGMENT是加载的主要命令,它负责指导内核来设置进程的内存空间

13852671-dfb91d96fe889dc2
  • cmd:就是就是Load commands的类型,这里LC_SEGMENT_64代表将文件中64位的段映射到进程的地址空间。LC_SEGMENT_64LC_SEGMENT的结构差别不大,下面只列举一个,有兴趣可以阅读源码

  • cmdsize:代表load command的大小
  • VM Address :段的虚拟内存地址
  • VM Size : 段的虚拟内存大小
  • file offset:段在文件中偏移量
  • file size:段在文件中的大小

将该段对应的文件内容加载到内存中:从offset处加载 file size大小到虚拟内存 vmaddr处,由于这里在内存地址空间中是_PAGEZERO段(这个段不具有访问权限,用来处理空指针)所以都是零

还有图片中的其他段,比如_TEXT对应的就是代码段,_DATA对应的是可读/可写的数据,_LINKEDIT是支持dyld的,里面包含一些符号表等数据

  • nsects:标示了Segment中有多少secetion
  • segment name:段的名称,当前是__PAGEZERO

Segment & Section

这里有个命名的问题,如下图所示,__TEXT代表的是Segment,小写的__text代表 Section

14852671-22f3c34562d029b9

Section的数据结构

  • sectname:比如_textstubs
  • segname :section所属的segment,比如__TEXT
  • addr :section在内存的起始位置
  • size:section的大小
  • offset:section的文件偏移
  • align :字节大小对齐
  • reloff :重定位入口的文件偏移
  • nreloc: 需要重定位的入口数量
  • flags:包含sectiontypeattributes

发现很多底层知识都是以 Mach-O为基础的,所以最近打算花时间结合Mach-O做一些相对深入的总结,比如符号解析、bitcode、逆向工程等,加油吧

参考链接