Python并发与并行的新手指南

753 查看

在批评Python的讨论中，常常说起Python多线程是多么的难用。还有人对 global interpreter lock(也被亲切的称为“GIL”)指指点点，说它阻碍了Python的多线程程序同时运行。因此，如果你是从其他语言（比如C++或Java）转过来的话，Python线程模块并不会像你想象的那样去运行。必须要说明的是，我们还是可以用Python写出能并发或并行的代码，并且能带来性能的显著提升，只要你能顾及到一些事情。如果你还没看过的话，我建议你看看Eqbal Quran的文章《Ruby中的并发和并行》。

在本文中，我们将会写一个小的Python脚本，用于下载Imgur上最热门的图片。我们将会从一个按顺序下载图片的版本开始做起，即一个一个地下载。在那之前，你得注册一个Imgur上的应用。如果你还没有Imgur账户，请先注册一个。

本文中的脚本在Python3.4.2中测试通过。稍微改一下，应该也能在Python2中运行——urllib是两个版本中区别最大的部分。

开始动手

让我们从创建一个叫“download.py”的Python模块开始。这个文件包含了获取图片列表以及下载这些图片所需的所有函数。我们将这些功能分成三个单独的函数：

get_links
download_link
setup_download_dir

第三个函数，“setup_download_dir”，用于创建下载的目标目录（如果不存在的话）。

Imgur的API要求HTTP请求能支持带有client ID的“Authorization”头部。你可以从你注册的Imgur应用的面板上找到这个client ID，而响应会以JSON进行编码。我们可以使用Python的标准JSON库去解码。下载图片更简单，你只需要根据它们的URL获取图片，然后写入到一个文件即可。

代码如下：

import json

import logging

import os

from pathlib import Path

from urllib.request import urlopen, Request

logger = logging.getLogger(__name__)

def get_links(client_id):

headers = {'Authorization': 'Client-ID {}'.format(client_id)}

req = Request('https://api.imgur.com/3/gallery/', headers=headers, method='GET')

with urlopen(req) as resp:

data = json.loads(resp.readall().decode('utf-8'))

return map(lambda item: item['link'], data['data'])

def download_link(directory, link):

logger.info('Downloading %s', link)

download_path = directory / os.path.basename(link)

with urlopen(link) as image, download_path.open('wb') as f:

f.write(image.readall())

def setup_download_dir():

download_dir = Path('images')

if not download_dir.exists():

download_dir.mkdir()

return download_dir

接下来，你需要写一个模块，利用这些函数去逐个下载图片。我们给它命名为“single.py”。它包含了我们最原始版本的Imgur图片下载器的主要函数。这个模块将会通过环境变量“IMGUR_CLIENT_ID”去获取Imgur的client ID。它将会调用“setup_download_dir”去创建下载目录。最后，使用get_links函数去获取图片的列表，过滤掉所有的GIF和专辑URL，然后用“download_link”去将图片下载并保存在磁盘中。下面是“single.py”的代码：

import logging

import os

from time import time

from download import setup_download_dir, get_links, download_link

logging.basicConfig(level=logging.DEBUG, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')

logging.getLogger('requests').setLevel(logging.CRITICAL)

logger = logging.getLogger(__name__)

def main():

ts = time()

client_id = os.getenv('IMGUR_CLIENT_ID')

if not client_id:

raise Exception("Couldn't find IMGUR_CLIENT_ID environment variable!")

download_dir = setup_download_dir()

links = [l for l in get_links(client_id) if l.endswith('.jpg')]

for link in links:

download_link(download_dir, link)

print('Took {}s'.format(time() - ts))

if __name__ == '__main__':

main()

在我的笔记本上，这个脚本花了19.4秒去下载91张图片。请注意这些数字在不同的网络上也会有所不同。19.4秒并不是非常的长，但是如果我们要下载更多的图片怎么办呢？或许是900张而不是90张。平均下载一张图片要0.2秒，900张的话大概需要3分钟。那么9000张图片将会花掉30分钟。好消息是使用了并发或者并行后，我们可以将这个速度显著地提高。

接下来的代码示例将只会显示导入特有模块和新模块的import语句。所有相关的Python脚本都可以在这方便地找到this GitHub repository。

使用线程

线程是最出名的实现并发和并行的方式之一。操作系统一般提供了线程的特性。线程比进程要小，而且共享同一块内存空间。

在这里，我们将写一个替代“single.py”的新模块。它将创建一个有八个线程的池，加上主线程的话总共就是九个线程。之所以是八个线程，是因为我的电脑有8个CPU内核，而一个工作线程对应一个内核看起来还不错。在实践中，线程的数量是仔细考究的，需要考虑到其他的因素，比如在同一台机器上跑的的其他应用和服务。

下面的脚本几乎跟之前的一样，除了我们现在有个新的类，DownloadWorker，一个Thread类的子类。运行无限循环的run方法已经被重写。在每次迭代时，它调用“self.queue.get()”试图从一个线程安全的队列里获取一个URL。它将会一直堵塞，直到队列中出现一个要处理元素。一旦工作线程从队列中得到一个元素，它将会调用之前脚本中用来下载图片到目录中所用到的“download_link”方法。下载完成之后，工作线程向队列发送任务完成的信号。这非常重要，因为队列一直在跟踪队列中的任务数。如果工作线程没有发出任务完成的信号，“queue.join()”的调用将会令整个主线程都在阻塞状态。

ref="http://www.jobbole.com/members/foolalex">鸭梨山大翻译，笑虎校稿。未经许可，禁止转载！
英文出处：MARCUS MCCURDY。欢迎加入翻译组。

本文中的脚本在Python3.4.2中测试通过。稍微改一下，应该也能在Python2中运行——urllib是两个版本中区别最大的部分。

开始动手

get_links
download_link
setup_download_dir

第三个函数，“setup_download_dir”，用于创建下载的目标目录（如果不存在的话）。

代码如下：

import json

import logging

import os

from pathlib import Path

from urllib.request import urlopen, Request

logger = logging.getLogger(__name__)

def get_links(client_id):

headers = {'Authorization': 'Client-ID {}'.format(client_id)}

req = Request('https://api.imgur.com/3/gallery/', headers=headers, method='GET')

with urlopen(req) as resp:

data = json.loads(resp.readall().decode('utf-8'))

return map(lambda item: item['link'], data['data'])

def download_link(directory, link):

logger.info('Downloading %s', link)

download_path = directory / os.path.basename(link)

with urlopen(link) as image, download_path.open('wb') as f:

f.write(image.readall())

def setup_download_dir():

download_dir = Path('images')

if not download_dir.exists():

download_dir.mkdir()

return download_dir

import logging

import os

from time import time

from download import setup_download_dir, get_links, download_link

logging.basicConfig(level=logging.DEBUG, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')

logging.getLogger('requests').setLevel(logging.CRITICAL)

logger = logging.getLogger(__name__)

def main():

ts = time()

client_id = os.getenv('IMGUR_CLIENT_ID')

if not client_id:

raise Exception("Couldn't find IMGUR_CLIENT_ID environment variable!")

download_dir = setup_download_dir()

links = [l for l in get_links(client_id) if l.endswith('.jpg')]

for link in links:

download_link(download_dir, link)

print('Took {}s'.format(time() - ts))

if __name__ == '__main__':

main()

接下来的代码示例将只会显示导入特有模块和新模块的import语句。所有相关的Python脚本都可以在这方便地找到this GitHub repository。

使用线程

线程是最出名的实现并发和并行的方式之一。操作系统一般提供了线程的特性。线程比进程要小，而且共享同一块内存空间。

o" style="min-height: 18.2px !important; line-height: 18.2px !important;">