菜鸟学Python：多线程的探究

904 查看

一、背景

　　最近老爱提及背景这两个字，似乎没有背景就做不了事情。所以，工作上所有的事情都是有一个出发点，然后N多人会质疑你这个出发点对不对，出发点对了，也继续质疑你做的方法对不对…

　　言归正传，这段代码的背景是这样的：有一个很长的文本，里面均是图片的url，想将每个图片的大小从http header上抓出来，写入到另外一个文件。简单来说就想得到3W多张图片各张图片的大小，然后再统计平均值。

　　使用单线程下载，由于http访问的时候使用的是TCP三次握手，异常慢，可以利用多线程进行下载，亲测速度快了接近5倍。

二、代码

#!/usr/bin/python
import os,sys,time,urllib2
import threading

def get(url):
  #使用urllib2的库对url进行访问
  r=urllib2.urlopen(url)
  #读取url的页面
  content=r.read()
  #从header获得content-length
  a=dict(r.headers).get('content-length', 0)
  output = open('/home/adonishe/httprequest_new/output.txt', 'a+')
  output.write(a+'\n')
  #print a
  #file(fname,'w').write(content)

def main():
  urllist=open("/home/abc/httprequest.txt", "r")
  for i in urllist:
    url=i
    #name=url.replace('/','_')
    #print url,name
    while threading.activeCount()>300:
      time.sleep(0.1)
    t=threading.Thread(target=get,args=([url,]))
    t.start()


if __name__=='__main__':
  main()

总结

　　使用Python的多线程不是很麻烦的事情，步骤：

import threading
t=threading.Thread(target=get,args=([url,]))
t.start()

　　作为Python初入门者，可以考虑多用这类的方法。