一个人人网python爬虫

471 查看

Background

不知道现在还有多少人在使用人人网，但是在我刚上大学的时候人人网还有开心网还是很火的，然而它们都相继死去了。倒是高中时喜欢玩的QQ空间依旧风生水起。

但是毕竟在人人网上留下了很多东西，将来一不小心人人网关掉了（这种可能我感觉越来越大，毕竟资本市场不会说谎），这些东西丢掉岂不是很可惜？

每天发生的各种琐事，你此时弃之如敝屐，珍之如瑰宝，在不久的将来会化作一串串珍珠，让人凭吊……然而珍珠也会蒙尘，所以还是尽可能地保护吧！

最终代码

RenRenDownload

遇到的一些问题

1.登录

用python实现模拟登录人人网

2.验证码

在登录那篇博客中已提到验证码的问题，实际当中应该是登录时重复多次输错密码导致的。

之后我又发现，在之后爬去好友的个人信息时，人人网对浏览数进行了限制，当对好友的个人页面浏览量累计超过100时，人人网会进行一次验证码识别。

解决思路都是将图片下载下来，将识别后的字符串返回。关于如何确保返回的验证码不是刷新后的新验证码，详见上述博客的最后几段。

3.Python中的中文，Unicode

如果涉及到中文，Python处理字符时经常会报错。
主要学习参考以下几篇博文：

首先是代码中的编码问题，详见第一篇。
刚开始的英文只需要256个字符编码就可以解决问题，即ASCII，可以说是计算机中最基础的编码了吧，记得大学第一门计算机专业课就对它进行了讲解。
然而除了英文之外还有许多其他字符需要进行编码工作，例如中文。但是没有一种编码方式将这些ASCII编码无法涵盖的字符进行统一规则，知道出现了Unicode。如名字一样，每个字符对应的编码都是独一无二的。
但是Unicode只是一个很大的集合，只规定了符号的二进制代码，而没有规定在计算机中应该如何存储。
后来，随着互联网的发展，需要一种统一的编码方式进行通信，UTF-8就是一种Unicode的编码方式，并且是应用最广的。
以上就是三者的关系。

然后是Python中的编码问题。
我们经常遇到两种类型的字符，一种是str，一种是Unicode。
Python认为Unicode才应该是最基础的编码。所以str变Unicode是str.decode(‘str的编码方式’)，而Unicode变str是Unicode.encode(‘想要变成的编码方式’)。
为了防止意外，理想的情况是，从外界输入进来的字符，统一decode成Unicode，在Python代码中统一使用Unicode，在输出至外界时，再根据所需encode成对应的字符。
另外，在Python代码开头，统一声明“# –– coding: utf-8 ––”表示该代码内部的str编码方式均为utf-8，方便之后进行转换（虽然python本身进行默认转换时，并不会参考该设置）。

如果出错，一般会有两种报错：

1 2	UnicodeDecodeError: 'ascii' codec can't decode byte... UnicodeEncodeError: 'ascii' codec can't encode characters...

有时候是我们写代码时不小心掉入陷阱，有时候则是python使用默认编码规则转换时出错（例如str和Unicode类型进行拼接，或者进行输入输出）。

通过以下代码可以得知当前python使用的编码规则：

1 2	impoort sys sys.getdefaultencoding()

结果是ascii
我们可以将它进行强制设置（不推荐）：

1 2	reload(sys) sys.setdefaultencoding('utf-8')

这样的话可以避免一些错误。

不同编码转换时，推荐先decode成Unicode，再encode成最终编码。

同样的道理，如果在控制台上发现读取文件是乱码，可查看下是否是编码方式错误，在数据库中，也同样是道理。

有个库可以进行编码识别：chardet。

4.json

爬取过程中，发现有数据是直接返回的json，有数据是html中的一段但是也是json格式。
一般通过如下进行获取，s表示字符串：
dictinfo = json.loads(content)
但是python的json模块要求key值和value值都用双引号，而人人网返回的数据中，key和value中单引号和双引号都有使用，需要更改。然而有的单引号需要变成双引号，有的不需要（只出现了一次：某个value是一段html，其中有一个链接包含http:，如果更改为双引号，则此冒号会造成误解），所以需要挨个字符进行判断。
导入成功后，就可以使用如下方式进行读取：
dictlinfo[key值]

5.MySQL

简单教程：
MySQL 教程
 python操作mysql数据库

使用sql输出table所有项：

1	select * from table_name into outfile outfile_name.txt

导出表作为原始数据:
在命令行输入

1	mysqldump -u root -p --tab=directory database_name table_name

其中directory即为导出到的目录

导出sql格式的数据：
在命令行输入

1	mysqldump -u root -p database_name table_name > output file_name.txt

如果要导出整个database，则去掉上面命令中的table_name。
如果要导出所有database（==备份数据库），则是：

1	mysqldump -u root -p --all-databases > output file_name.txt

关于在Mysql中使用中文，创建数据库的时候默认的编码方式是latin1，而不是utf-8.
可以通过如下命令来查看对应数据库、表的编码方式：

1 2	show create database database_name show create table table_name

可以通过如下命令来查看创建时使用的默认编码方式：
show variables like ‘%char%’
如果需要更改，可以执行：

SET NAMES utf8

SET CHARACTER_SET_CLIENT=utf8

SET CHARACTER_SET_RESULTS=utf8

只不过这些设置都是临时的，下次启动后还会还原成原先的情况。

那么要在Mysql中使用中文，首先创建时要设置好编码方式。
数据库默认是latin1：

1	create database database_name default character set utf8

还需要设置collation即比对方法，合起来如下：

1	create database database_name default character set utf8 collate utf8_general_ci

同时python连接时也要设置为utf8，可以通过在MySQLdb.connect(**arg)的入参中设置’charset’:’utf8’。
另一种方法是连接建立后，执行connect.set_character_set(‘utf8’)。
或者是执行SET NAMES utf8。

参考：
让MySQL支持中文
 mysql 中 character set 与 collation 的点滴理解
 mysql编码详解

最后再来上一次代码：RenRenDownload