股票数据的网站抓取(一)

1283 查看

缘起

不就是因为想能够更好的对比数据吗,期望能够万一成功从此财务自由,天天美食,豪车,美女.... 说远了。 顺便也可以复习下python好久没有动手了感觉还是有点手生了。

需求分析

  1. 通过网站抓取所有股票数据
  2. 能够获得所有股票的名称,代码,收益,净资产等数据
    3.形成一个Excel表格

技术选择

  1. 数据源使用网站,目前暂时定位为东方财富网
  2. 用python+selenium,保存格式为文本然后导入excel
  3. 下一版本,考虑要下载的页面多,使用多线程模式,估计这个是很久以后的事情了。暂时不多做考虑
  4. 太小,不考虑测试了把,关键是我的程序都是个人使用似乎没考虑过强壮性,以后再说。

具体功能细化

  1. 能够通过web打开该网站(http://quote.eastmoney.com/stocklist.html)
  2. 能够获得该页面所有股票代码链接
  3. 打开一个链接获得各种需要的数据

    具体数据要求

    所属市场,名称,代码,受益,PE,净资产,市净率,收入,收入同比,净利润,净利润同比,毛利率,净利率,ROE,负债率,总股本,总值,流通股,流值,每股为分配利润
    如果没有以上这些数据,则填0

  4. 保存数据到格式文本

  5. 依次打开链接获取数据
  6. 数据保存为可导入excel的文本文档

    数据间使用~分割