http的缓存机制在flask的实现

531 查看

http协议有一系列的缓存机制（RFC2616），相关的参数就在协议header中。缓存机制的合理使用可以大大减缓对服务器的压力。

1 HTTP缓存头的设置参数

HTTP缓存头的参数包括：

Cache-Control（用于本地缓存）
Expires（用于本地缓存）
Last-Modified(协商缓存)
Etag(协商缓存)。

1.1 Cache-Control

指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置Cache- Control并不会修改另一个消息处理过程中的缓存处理过程。

请求时的缓存指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if- cached；
响应消息中的指令包括public、private、no-cache、no-store、no-transform、must- revalidate、proxy-revalidate、max-age。

1.2Expires

是一个绝对时间，作用与cache-control的max-age相类似，表示资源信息失效的时间。

1.3 Last-Modified

被访问的资源的最近一次更改时间(http1.0)

1.4 ETag

资源的一个唯一标志（http1.1），通过这个标识，可以实现客户端与服务端的协商机制。它的作用与Last-Modified是相类似的。

2 原理

是事实上，上述四者的实现机制上，可以归纳为：

cache-control/Expires：资源有效时间定义机制
Last-Modified/ETag：资源更新传输协商机制

2.1 cache-control/Expires：资源有效时间定义机制

最好的请求是不必与服务器进行通信的请求：通过响应的本地副本，我们可以避免所有的网络延迟以及数据传输的数据成本。为此，HTTP 规范允许服务器返回一系列不同的 Cache-Control 指令，控制浏览器或者其他中继缓存如何缓存某个响应以及缓存多长时间。

cache-control控制缓存原理

一些参数的说明

no-cache和 no-store
no-cache表示必须先与服务器确认返回的响应是否被更改，然后才能使用该响应来满足后续对同一个网址的请求。因此，如果存在合适的验证令牌 (ETag)，no-cache 会发起往返通信来验证缓存的响应，如果资源未被更改，可以避免下载。
相比之下，no-store更加简单，直接禁止浏览器和所有中继缓存存储返回的任何版本的响应 - 例如：一个包含个人隐私数据或银行数据的响应。每次用户请求该资源时，都会向服务器发送一个请求，每次都会下载完整的响应。
public和private
如果响应被标记为public，即使有关联的 HTTP 认证，甚至响应状态码无法正常缓存，响应也可以被缓存。大多数情况下，public不是必须的，因为明确的缓存信息（例如max-age）已表示响应可以被缓存。
相比之下，浏览器可以缓存private响应，但是通常只为单个用户缓存，因此，不允许任何中继缓存对其进行缓存 - 例如，用户浏览器可以缓存包含用户私人信息的 HTML 网页，但是 CDN 不能缓存。
max-age
该指令指定从当前请求开始，允许获取的响应被重用的最长时间（单位为秒） - 例如：max-age=60表示响应可以再缓存和重用 60 秒。
关于expires
Cache-Control 头在 HTTP/1.1 规范中定义，取代了之前用来定义响应缓存策略的头（例如 Expires）。当前的所有浏览器都支持 Cache-Control，因此，使用它就够了。
cache-control在请求端和服务端的命令相互独立
cache-control不会因为请求设置的值而修改响应设置，反之亦然。这里考虑到一种场景，响应头中设置了一定的缓存时间，然而请求端仍然需要获取最新结果，则将请求头的缓存设置中加上“max-age=0”，则强制服务端响应这个请求。
2.2 Last-Modified/ETag：资源更新传输协商机制

Last-Modified
在浏览器第一次请求某一个URL时，服务器端的返回状态会是200，内容是你请求的资源，同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间，格式类似这样:
```
Last-Modified: Fri, 12 May 2006 18:53:33 GMT
```
客户端第二次请求此URL时，根据 HTTP 协议的规定，浏览器会向服务器传送 If-Modified-Since 报头，询问该时间之后文件是否有被修改过：
```
If-Modified-Since: Fri, 12 May 2006 18:53:33 GMT
```
如果服务器端的资源没有变化，则自动返回 HTTP 304 （Not Changed.）状态码，内容为空，这样就节省了传输数据量。当服务器端代码发生改变或者重启服务器时，则重新发出资源，返回和第一次请求时类似。从而保证不向客户端重复发出资源，也保证当服务器有变化时，客户端能够得到最新的资源。
ETag
HTTP 协议规格说明定义ETag为“被请求变量的实体值” 。另一种说法是，ETag是一个可以与Web资源关联的记号（token）。典型的Web资源可以一个Web页，但也可能是JSON或XML文档。服务器单独负责判断记号是什么及其含义，并在HTTP响应头中将其传送到客户端，以下是服务器端返回的格式：　　
```
ETag: "50b1c1d4f775c61:df3"
```
客户端的查询更新格式是这样的：　　
```
If-None-Match: W/"50b1c1d4f775c61:df3"
```
如果ETag没改变，则返回状态304然后不返回，这也和Last-Modified一样。

基于ETag验证的缓存原理

2.3 一种缓存分级策略实例

max-age=86400
浏览器和任何中继缓存均可以将响应（如果是public的）缓存长达一天（60 秒 x 60 分 x 24 小时）
private, max-age=600
客户端浏览器只能将响应缓存最长 10 分钟（60 秒 x 10 分）
no-cache
通过ETag协商
no-store
不允许缓存响应，每个请求必须获取完整的响应。
上面是一种缓存分级机制的栗子，可以根据资源的更新情况进行响应的配置。当然还可以有更多灵活配置。

3 基于flask实现

3.1 cache-control的flask实现

flask有一个扩展包解决这个问题：flask-cachecontrol。秉承flask的传统，使用的方法十分简单（看看代码也好）。

from flask.ext.cachecontrol import (
    FlaskCacheControl,
    cache,
    cache_for,
    dont_cache)
flask_cache_control = FlaskCacheControl()
flask_cache_control.init_app(app)

@app.route('/')
@cache_for(hours=3)
def index_view():
    return render_template('index_template')

@app.route('/stats')
@cache(max_age=3600, public=True)
def stats_view():
    return render_template('stats_template')

@app.route('/dashboard')
@dont_cache()
def dashboard_view():
    return render_template('dashboard_template')

它简化为了三个场景，将相关的配置都自动在响应包中添加。例如，采用cache(max_age=3, public=False)的修饰器，返回的缓存头包括了几个配置参数。

HTTP/1.0 200 OK
Content-Type: application/json
Content-Length: 1804
Cache-Control: proxy-revalidate, no-cache, no-store, must-revalidate, max-age=0
Server: Werkzeug/0.10.4 Python/2.7.10
Date: Fri, 05 Aug 2016 03:51:28 GMT

3.2 ETag/Last-Modified的flask实现

ETag没有flask扩展包，这里有一篇官方的文章介绍实现方法。对方法总结一下：

给flask.response.set_etag()做一个猴子补丁（Monkeypatching）。

猴子补丁的内容为，校验请求包的“IF-MATCH”与“IF-NONE-MATCH”信息（即请求包的ETag字段），如果不合法则直接返回错误；如果合法，则执行校验etag，将本次新生成的etag码与请求包中的“IF-NONE-MATCH”码相匹配，则抛出“NotModified”异常（执行304状态码及空包返回），如果不匹配，则进行全数据返回且包含了新的ETag信息。

_old_set_etag = werkzeug.ETagResponseMixin.set_etag
@functools.wraps(werkzeug.ETagResponseMixin.set_etag)
def _new_set_etag(self, etag, weak=False):
  # only check the first time through; when called twice
  # we're modifying
  if (hasattr(flask.g, 'condtnl_etags_start') and
                             flask.g.condtnl_etags_start):
      if flask.request.method in ('PUT', 'DELETE', 'PATCH'):
          if not flask.request.if_match:
              raise PreconditionRequired
          if etag not in flask.request.if_match:
              flask.abort(412)
      elif (flask.request.method == 'GET' and
            flask.request.if_none_match and
            etag in flask.request.if_none_match):
          raise NotModified
      flask.g.condtnl_etags_start = False
  _old_set_etag(self, etag, weak)
werkzeug.ETagResponseMixin.set_etag = _new_set_etag

校验ETag的行为在API的响应代码中执行。

app = flask.Flask(__name__)
d = {'a': 'This is "a".\n', 'b': 'This is "b".\n'}
@app.route('/<path>',
         methods = ['GET', 'PUT', 'DELETE', 'PATCH'])
@conditional
def view(path):
  try:
      # SHA1 should generate well-behaved etags
      etag = hashlib.sha1(d[path]).hexdigest()
      if flask.request.method == 'GET':
          response = flask.make_response(d[path])
          response.set_etag(etag)
      else:
          response = flask.Response(status=204)
          del response.headers['content-type']
          response.set_etag(etag)
          if flask.request.method == 'DELETE':
              del d[path]
              del response.headers['etag']
          else:
              if flask.request.method == 'PUT':
                  d[path] = flask.request.data
              else: # (PATCH)
                  # lame PATCH technique
                  d[path] += flask.request.data
           response.set_etag(hashlib.sha1(d[path])
                                    .hexdigest())
      return response
  except KeyError:
      flask.abort(404)
app.run()

4 总结一下

缓存是一个减缓服务端压力的手段。对于一些很少改变的且不敏感的资源，可以用开放式缓存，让CDN等中间环节也帮我们存信息。而对于一些少改变且稍为敏感的资源，则可以使用私有式缓存，让客户端浏览器执行缓存。甚至于更新很频繁的还可设置为ETag校验或者数据十分敏感，不能缓存的也有no-store机制。

采用ETag可能是比较折衷的办法，在减缓带宽压力上十分有效，但在减缓服务器计算压力（甚至数据库压力）上仍然没有太大意义（ETag要求服务端先获取了数据之后，再生成ETag，再用ETag与请求包的ETag验证）。

参考：
https://www.w3.org/Protocols/rfc2616/rfc2616-sec13.html
http://www.tuicool.com/articles/YBbeM33
https://github.com/twiebe/Flask-CacheControl
https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching?hl=zh-cn
http://blog.csdn.net/salmonellavaccine/article/details/42734183
http://flask.pocoo.org/snippets/95/