在最近三个月,我和Ned Batchelder用了很多时间在做 byterun。它是用Python写的Python字节码解释器。做 byterun 的过程十分有趣,也让我收获了很多知识。在这个系列文章的结尾,我将试着让你相信:你也能轻松愉快地“玩” byterun。但在那之前,我们需要做一些准备工作:大概了解python内部是如何工作的。这样我们才能理什么是解释器,它能做什么以及它不能做什么。
这个系列文章是面向水平和三个月前的我相似的读者。也就是你了解python,但对它的内部工作一无所知。
提示:本文将基于 Python 2.7 , Python 3 中的解释器也非常相似。虽然我会忽略两个版本之间的语法和命名差异,但我这个系列同样可以试用于 Python3。
Python是如何工作的?
我们将从高层开始了解python的内部工作。你在你的python REPL里执行一行代码之后,它是如何工作的呢?
1 2 3 4 5 |
~ $ python Python 2.7.2 (default, Jun 20 2012, 16:23:33) [GCC 4.2.1 Compatible Apple Clang 4.0 (tags/Apple/clang-418.0.60)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> a = "hello" |
当你敲下return键的时候,python完成了以下四步:词法分析、句法分析、编译、解释。词法分析的工作就是将你刚才输入的那行代码分解为一些符号token(译者注:包括标示符,关键字,数字, 操作符等)。句法分析程序再接收这些符号,并用一种结构来展现它们之间的关系(在这种情况下使用的抽象语法树)。然后编译器接收这棵抽象语法树,并将它转化为一个(或多个)代码对象。最后,解释器逐个接收这些代码对象,并执行它们所代表的代码。
主要是因为我现在对这些步骤一窍不通,所以我并不打算详解词法分析、句法分析和编译。但是,我们假设这些步骤都正常运行,并且能够提供给解释器一个合适的python代码对象来完成解释工作。
在我们谈论代码对象之前,我想先解答一些常见的疑惑。我们将在这个系列文章中讲解函数对象、代码对象以及字节码。它们是完全不同的概念。我们就从函数对象谈起吧。虽然我们不需要了解函数对象到达解释器的过程,但是我想强调函数对象和代码对象是截然不同的(另外,函数对象超棒!)。
函数对象
你也许对“函数对象”早有耳闻。当谈到“函数是最好的对象”或者“Python有着最棒的函数”时,人们总会提起它。那我们就来看一个函数对象吧。
1 2 3 4 5 6 |
>>> def foo(a): ... x = 3 ... return x + a ... >>> foo <function foo at 0x107ef7aa0> |
“函数是最好的对象”说明函数是一种对象。它就如同一个列表或者举个例子来说 :MyObject 就是一个对象。既然 foo 是一个对象,那么我们就能在不调用它的情况下使用它(也就是说,foo 和 foo() 是大相径庭的)。我们能够将 foo 当作一个参数传递给另一个函数或者赋值给一个新函数名( other_function = foo )。有了如此棒的函数,一切皆为可能!
在第二部分,我们将着眼于下一层次——代码对象。