菜鸟学Python:多线程的探究

882 查看

一、背景

  最近老爱提及背景这两个字,似乎没有背景就做不了事情。所以,工作上所有的事情都是有一个出发点,然后N多人会质疑你这个出发点对不对,出发点对了,也继续质疑你做的方法对不对…

  言归正传,这段代码的背景是这样的:有一个很长的文本,里面均是图片的url,想将每个图片的大小从http header上抓出来,写入到另外一个文件。简单来说就想得到3W多张图片各张图片的大小,然后再统计平均值。

  使用单线程下载,由于http访问的时候使用的是TCP三次握手,异常慢,可以利用多线程进行下载,亲测速度快了接近5倍。

二、代码

#!/usr/bin/python
import os,sys,time,urllib2
import threading

def get(url):
  #使用urllib2的库对url进行访问
  r=urllib2.urlopen(url)
  #读取url的页面
  content=r.read()
  #从header获得content-length
  a=dict(r.headers).get('content-length', 0)
  output = open('/home/adonishe/httprequest_new/output.txt', 'a+')
  output.write(a+'\n')
  #print a
  #file(fname,'w').write(content)

def main():
  urllist=open("/home/abc/httprequest.txt", "r")
  for i in urllist:
    url=i
    #name=url.replace('/','_')
    #print url,name
    while threading.activeCount()>300:
      time.sleep(0.1)
    t=threading.Thread(target=get,args=([url,]))
    t.start()


if __name__=='__main__':
  main()

总结

  使用Python的多线程不是很麻烦的事情,步骤:

  1. import threading
  2. t=threading.Thread(target=get,args=([url,]))
  3. t.start()

  作为Python初入门者,可以考虑多用这类的方法。