从零开始搭建论坛(2):Web服务器网关接口

633 查看

在《从零开始搭建论坛(1):Web服务器与Web框架》中我们弄清楚了Web 服务器、Web 应用程序、Web框架的概念。对于 Python 来说,越来越多的 Web 框架面世,在给我们更多选择机会的同时,也限制了我们对于 Web Server 的选择。同样是有着很多 Web 框架的Java,因为有着 servlet API 的存在,任何Java Web框架写的应用程序都可以运行在任意一个 Web Server 上。

Python 社区当然也需要这样一套 API,来适配Web服务器和应用程序,这套 API 就是 WSGI(Python Web Server Gateway Interface),在 PEP 3333 里有详细的说明。简单来说,WSGI是连接Web服务器和Web应用程序的桥梁,一方面从Web server 拿到原始 HTTP 数据,处理成统一格式后交给 Web 应用程序,另一方面从应用程序/框架这边进行业务逻辑处理,生成响应内容后交给服务器。

Web服务器和框架通过 WSGI 来进行耦合的详细过程如下图所示:

WSGI Server 适配

具体解释如下:

  • 应用程序(网络框架)提供一个命名为application的可调用对象(WSGI协议并没有指定如何实现这个对象)。
  • 服务器每次从HTTP客户端接收请求之后,调用可调用对象application,调用时传递一个名叫environ的字典作为参数,以及一个名为start_response的可调用对象。
  • 框架/应用生成HTTP状态码以及HTTP响应报头,然后将二者传递至start_response,等待服务器保存。此外,框架/应用还将返回响应的正文。
  • 服务器将状态码、响应报头和响应正文组合成HTTP响应,并返回给客户端(这一步并不属于WSGI协议)。

下面分别从服务器端和应用程序端来看看 WSGI 是如何做适配的。

服务器端

我们知道客户端(通常是浏览器)发出的每个HTTP请求由请求行、消息报头、请求正文三部分组成,里面包含了本次请求的相关细节内容。比如:

  • Method:指出在由Request-URI标识的资源上所执行的方法,包括GET,POST 等
  • User-Agent:允许客户端将它的操作系统、浏览器和其它属性告诉服务器;

服务器从客户端接收HTTP请求之后,WSGI 接口必须要对这些请求字段进行统一化处理,方便传给应用服务器接口(其实就是给框架)。Web服务器具体传递哪些数据给应用程序,早在CGI(Common Gateway Interface,通用网关接口)里就有详细规定,这些数据被叫做 CGI 环境变量。WSGI 沿用了 CGI 环境变量的内容,要求 Web 服务器必须创建一个字典用来保存这些环境变量(一般将其命名为 environ)。除了 CGI 定义的变量,environ 还必须保存一些WSGI定义的变量,此外还可以保存一些客户端系统的环境变量,可以参考 environ Variables 来看看具体有哪些变量。

接着 WSGI 接口必须将 environ 交给应用程序去处理,这里 WSGI 规定应用程序提供一个可调用对象 application,然后服务器去调用 application,获得返回值为HTTP响应正文。服务器在调用 application 的时候,需要提供两个变量,一个是前面提到的变量字典environ,另一个是可调用对象 start_response,它产生状态码和响应头,这样我们就得到了一个完整的HTTP响应。Web 服务器将响应返回给客户端,一次完整的HTTP请求-响应过程就完成了。

wsgiref 分析

Python 中内置了一个实现了WSGI接口的 Web 服务器,在模块wsgiref中,它是用纯Python编写的WSGI服务器的参考实现,我们一起来简单分析一下它的实现。首先假设我们用下面代码启动一个 Web 服务器:

然后我们以Web服务器接收一个请求、生成 environ,然后调用 application 来处理请求这条主线来分析源码的调用过程,简化如下图所示:

WSGI Server 调用流程

这里主要有三个类,WSGIServer,WSGIRequestHandler,ServerHandle。WSGIServer 是Web服务器类,可以提供server_address(IP:Port)和 WSGIRequestHandler 类来进行初始化获得一个server对象。该对象监听响应的端口,收到HTTP请求后通过 finish_request 创建一个RequestHandler 类的实例,在该实例的初始化过程中会生成一个 Handle 类实例,然后调用其 run(application) 函数,在该函数里面再调用应用程序提供的 application对象来生成响应。

这三个类的继承关系如下图所示:

WSGI 类继承关系图

其中 TCPServer 使用 socket 来完成 TCP 通信,HTTPServer 则是用来做 HTTP 层面的处理。同样的,StreamRequestHandler 来处理 stream socket,BaseHTTPRequestHandler 则是用来处理 HTTP 层面的内容,这部分和 WSGI 接口关系不大,更多的是 Web 服务器的具体实现,可以忽略。

微服务器实例

如果上面的 wsgiref 过于复杂的话,下面一起来实现一个微小的 Web 服务器,便于我们理解 Web 服务器端 WSGI 接口的实现。代码摘自《一起写一个 Web 服务器(2)》,放在 gist 上,主要结构如下:

目前支持 WSGI 的成熟Web服务器有很多,Gunicorn是相当不错的一个。它脱胎于ruby社区的Unicorn,成功移植到python上,成为一个WSGI HTTP Server。有以下优点:

  • 容易配置
  • 可以自动管理多个worker进程
  • 选择不同的后台扩展接口(sync, gevent, tornado等)

应用程序端(框架)

和服务器端相比,应用程序端(也可以认为框架)要做的事情就简单很多,它只需要提供一个可调用对象(一般习惯将其命名为application),这个对象接收服务器端传递的两个参数 environ 和 startresponse。这里的可调用对象不仅可以是函数,还可以是类(下面第二个示例)或者拥有 _call 方法的实例,总之只要可以接受前面说的两个参数,并且返回值可以被服务器进行迭代即可

Application 具体要做的就是根据 environ 里面提供的关于 HTTP 请求的信息,进行一定的业务处理,返回一个可迭代对象,服务器端通过迭代这个对象,来获得 HTTP 响应的正文。如果没有响应正文,那么可以返回None。

同时,application 还会调用服务器提供的 start_response,产生HTTP响应的状态码和响应头,原型如下: