漫画:什么是机器学习?

1334 查看

在一个风和日丽的周末……

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%841

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%842

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%843

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%844

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%845

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%846

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%847

故事一:瑞雪兆丰年

我们中国有一句关于农业生产的古老谚语:瑞雪兆丰年。

就是说,如果前一年冬天下雪很大很多,那么第二年庄稼丰收的可能性比较大。

这条谚语是怎么来的呢?我们可以想象当时的情景:

第一年冬天

%e7%91%9e%e9%9b%aa

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%91

第二年收获时节

%e4%b8%b0%e6%94%b6

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%912

第二年冬天

%e4%b8%8d%e4%b8%8b%e9%9b%aa

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%916

第三年收获时节

%e6%ad%89%e6%94%b6

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%913

第三年冬天

%e7%91%9e%e9%9b%aa

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%914

第四年收获时节

%e4%b8%b0%e6%94%b6

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%915

年复一年,若干年后的冬天……

%e7%91%9e%e9%9b%aa

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%86%9c%e6%b0%916

这就是瑞雪兆丰年的故事。头年的瑞雪和来年的丰收,本是两个看起来并不相关的现象,但是智慧的农民伯伯通过几十年甚至几代人的经验,总结出了两个现象之间的规律。

现代的农业学家通过科学的分析,弄清了瑞雪兆丰年规律背后的本质原理。但是对于古代农民伯伯来说,知道规律就足够了,可以通过规律来为下一年的生产生活做出有效的调整。

故事二:啤酒和尿布

上个世纪90年代,沃尔玛超市已经是美国最大的零售企业,拥有大量的顾客资源。那时候的沃尔玛已经采用了先进的计算机技术,随时记录着每天众多顾客购物车中所挑选的商品明细。

%e8%b4%ad%e7%89%a9%e8%bd%a6

在其中一个普通的日子里:

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a21

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a22

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a23

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a24

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a25

就这样经年累月,沃尔玛积累了大量的顾客购物数据。直到某一天,沃尔玛的技术专家发现:

%e5%b0%8f%e4%bb%93%e9%bc%a0%e6%8a%80%e6%9c%af%e4%b8%93%e5%ae%b6

%e5%b0%8f%e4%bb%93%e9%bc%a0%e6%8a%80%e6%9c%af%e4%b8%93%e5%ae%b62

于是,这一尝试实行以后……

%e5%95%a4%e9%85%92%e5%b0%bf%e5%b8%83

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a23b

%e5%b0%8f%e4%bb%93%e9%bc%a0%e9%a1%be%e5%ae%a25b

从此,沃尔玛的销售额得到了显著提升,啤酒尿布的故事也广为流传,成为了销售界和IT界津津乐道的成功典范……

这就是沃尔玛啤酒和尿布的故事。顾客购买啤酒的行为和顾客购买尿布的行为,原本是两个看起来没什么关联的现象。但是沃尔玛的技术专家以大量的用户购物数据为样本,通过先进的算法,最终寻找到了两者之间的重要关联和规律。

为什么购买啤酒的人更有可能同时购买尿布呢?是因为有了小孩的男人比别人更爱喝啤酒?还是因为爱喝啤酒的男人比别人更顾家?这些臆测似乎都有些牵强。

但是沃尔玛不需要关心规律背后的本质。对企业来讲,利用发现的规律,获得实实在在的利益就足够了。

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%848

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%849

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8410

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8411

以下是小灰根据个人理解说画的流程图:

%e6%b5%81%e7%a8%8b%e5%9b%be1

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8412

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8412b

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8413

以下是大黄基于小灰的流程图所做的补充:

%e6%b5%81%e7%a8%8b%e5%9b%be2

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8414

以下是大黄对流程图结果部分作出的调整。其中假设模型可以理解成训练出来的降雪和收获的规律,通过假设模型,从新一年降雪情况推断出下一年收获情况的过程叫做回归。至于啤酒尿布的例子,属于截然不同的机器学习类型,只需要找出关联关系,并不需要进行回归。

%e6%b5%81%e7%a8%8b%e5%9b%be3

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8415a

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8415

机器学习按照方式不同主要分为三大类,有监督学习(Supervised learning)、无监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)。

监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出。在瑞雪兆丰年的例子中,头年降雪量就是输入,来年亩产量就是输出。

非监督学习:直接对输入数据集进行建模,寻找关联。例如啤酒尿布的例子,只需要寻找关联性,并不需要什么明确的目标值输出。

半监督学习:综合利用有输入输出的数据,和只有输入的数据来进行训练。可以简单理解成监督学习和非监督学习的综合。

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8416

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8417

%e7%94%a8%e9%80%94

%e5%b0%8f%e4%bb%93%e9%bc%a0%e5%af%92%e6%9a%8418

这里所介绍的相关知识,只是作者对机器学习领域的一点皮毛了通。过这篇漫画,希望没有从过IT行业,或者不了解机器学习的朋友们能够对机器学习有一些初步的认知。

希望有经验的朋友们对本文提出宝贵意见,指出其中的纰漏和不足,非常感谢!

本人微信号:bjweimengshu

欢迎朋友们一起交流讨论,加好友请注明伯乐在线 :)