6 种 Python 数据可视化工具

594 查看

简介

在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极具挑战性。本文包含了一些较为流行的工具以及如何使用它们来创建简单的条形图,我将使用下面几种工具来完成绘图示例:

在示例中,我将使用 pandas 处理数据并将数据可视化。大多数案例中,使用上述工具时无需结合 pandas,但我认为 pandas 与可视化工具结合是非常普遍的现象,所以以这种方式开启本文是很棒的。

什么是 Matplotlib?

Matplotlib 是众多 Python 可视化包的鼻祖。其功能非常强大,同时也非常复杂。你可以使用 Matplotlib 去做任何你想做的事情,但是想要搞明白却并非易事。我不打算展示原生的 Matplotlib 例子,因为很多工具(特别是 Pandas 和 Seaborn)是基于 Matplotlib 的轻量级封装,如果你想了解更多关于 Matplotlib 的东西,在我的这篇文章— 《simple graphing》中有几个例子可供参考。

Matplotlib 令我最不满的地方是它花费太多工作来获得目视合理的图表,但是在本文的某些示例中,我发现无需太多代码就可以轻松获得漂亮的可视化图表。关于 Matplotlib 冗长特点的示例,可以参考这篇文章《ggplot》中的平面图示例。

方法论

简要说一下本文的方法论。我坚信只要读者开始阅读本文,他们将会指出使用这些工具的更好方法。我的目标并非在每个例子中创造出完全相同的图表,而是花费大致相同的时间探索方法,从而在每个例子中以大体相同的方法将数据可视化。

在这个过程中,我所面临的最大挑战是格式化 x 轴和 y 轴以及基于某些大的标签让数据看起来合理,弄明白每种工具是如何格式化数据的也花费了我不少精力,我搞懂这些之后,剩余的部分就相对简单了。

另外还需要注意的一点是,条形图可能是制作起来相对更简单的图表,使用这些工具可以制作出多种类型的图表,但是我的示例更加侧重的是简易的格式化,而不是创新式的可视化。另外,由于标签众多,导致一些图表占据了很多空间,所以我就擅自移除了它们,以保证文章长度可控。最后,我又调整了图片尺寸,所以图片的任何模糊现象都是缩放导致的问题,并不代表真实图像的质量。

最后一点,我以一种尝试使用 Excel 另外一款替代品的心态来实现示例。我认为我的示例在报告、展示、邮件或者静态网页中都更具说服力。如果你正在评估用于实时可视化数据的工具,亦或是通过其他途径去分享,那么其中的部分工具会提供很多我还未涉猎到的功能。

数据集

之前的文章描述了我们要处理的数据,我从每一类中抽取了更深一层的样例,并选用了更详细的元素。这份数据集包含了125行,但是为了保持简洁,我只选用了前10行,完整的数据集可以在这里找到。

Pandas

我打算先使用 pandas DataFrame来绘图。幸运地是,pandas 确实提供了内建的绘图功能,此功能是基于 matplotlib,接下来我将以它作为开始。

首先,导入模块并将数据读入 budget DataFrame,将数据排序并取前10条。

我们将在所有示例中使用相同的 budget 数据,下面是其中5条:

category detail amount
46 ADMINISTRATION Capitol Renovation and Restoration Continued 126300000
1 UNIVERSITY OF MINNESOTA Minneapolis; Tate Laboratory Renovation 56700000
78 HUMAN SERVICES Minnesota Security Hospital – St. Peter 56317000
0 UNIVERSITY OF MINNESOTA Higher Education Asset Preservation and Replac… 42500000
5 MINNESOTA STATE COLLEGES AND UNIVERSITIES Higher Education Asset Preservation and Replac… 42500000

现在,调整展示风格为更美观的默认设置,并创建图表:

上述代码使用 detail 列的数据完成了创建图表的主要工作,同时展示了 title并移除了 legend

下面是将图表存为 png 格式的代码:

图表如下图所示(截取了部分以使文章长度可控):

图1

基础图表看起来不错,理想情况下,我想对 y 轴再做一些格式化,但是这样做需要使用 matplotlib 的一些功能。虽然现在的图表已是完美可用的可视化图表了,但是仅仅通过 pandas 是不可能完成更多定制的。

Seaborn

Seaborn 是一个基于 matplotlib 的可视化库。它旨在使默认的数据可视化更加悦目。它还旨在简化复杂图表的创建,可以与 pandas 很好地集成。

本例中并未明显将 seaborn 区别于其他其他工具(译者注:并未展示一些 seaborn 独有或者特色的功能),我非常喜欢 seaborn 多样的内置风格,可以快速地修改调色板以使图表看起来更美观。其他方面,在创建这个简易图表时,并未使用 seaborn 做太多工作。

标准导包及读取数据:

我发现我必须使用 x_order 参数明确设置 x 轴上元素的顺序。

下面的代码设置了 x 轴顺序、图表及条形图的颜色:

正如你所看到的,我必修使用 matplotlib 旋转 x 轴的标题以便可以正常地阅读。从外观上看,图表看起来不错。理想情况下,我想格式化 y 轴上的刻度,但我不知道在不使用 matplotlib 中的 plt.yticks 的情况下,如何实现格式化。

2

ggplot

ggplot 与 Seaborn 类似,也是基于 matplotlib 并旨在以简单的方式提高 matplotlib 可视化的视觉感染力。它不同于 seaborn 是因为它是 ggplot2 为 R 语言准备的一个端口。基于这个目标,一些 API 的接口虽然不是很 pythonic 但是功能很强大。

我之前没有在 R 中使用过 ggplot,所以可能有一个学习曲线,但是我可以感受到 ggplot 的吸引力。该库正在积极发展,我也希望它可以继续成长、成熟。我认为它会是一个非常强大的工具。学习过程中,我也曾多次努力去弄清楚如何实现一些功能,在查阅代码并在 Google 搜索之后,我基本上搞明白了大部分。

继续导包并读取数据:

现在让我们通过连接几条 ggplot 命令来构造图表: