作者自序

首先,感谢你翻开这本书!

  • 这是一本什么书?

这是一本关于数据的科学艺术的书。书中介绍了数据科学这个行业,数据科学家需要的技能,以及“分析哲学”。书中对最常用,最有效的模型进行了展开。数据科学这个行业的本质是通过分析数据解决实际问题,所以本书很看重读者能够真正将书中介绍的知识付诸实践。书中的数据全部都是公开的,书中的代码,建模过程都可以重复。一切不能重复的的分析都是耍流氓!

  • 为什么写这本书?

当前关于大数据,人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型(如神经网络,深度学习【实际上就是多层神经网络】)。各路媒体和砖家深谙吃瓜群众不明觉厉的心态,所以就像个妓院头牌似的越发摆谱。曾今的我也是吃瓜群众中的一员,妥妥的迷失在这信息时代造成的漫天泡沫中,仿佛卡在一扇旋转门里,转了很久不知道去哪。了解一件事情最有效的方法就是实践。很幸运的是,在过去的4年里,我主导了大大小小各种分析项目。正是这些实践经验造就了这本书。我并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切。只想尽我所能的给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得你们能够少走弯路。

  • 为什么学习数据科学?

这个问题的答案因人而异。从事某个行业和同某人结婚一样,都有很大的随机性和主观性。所以下面只是我个人喜欢这个行业的理由。

  1. 我把数据科学家定义为匠人。个人很享受作为一个匠人,统帅三军之能不如薄技在身。当你相信自己在某些领域有专长并且因此产生自我价值感时,就会有激情。激情是有吸引力的,就像爱一样,这是一种值得为之奋斗的感觉。

  2. 这个世界上的手艺很多,为什么是数据科学?因为我觉得数据科学这门手艺能够帮你培养在当今信息海啸中独善其身的技能——独立思考的能力。用数据进行决策能够让你看问题更清晰,有逻辑,理性客观。这种能力不是只有数据分析师才需要掌握,理性思考是贯穿很多人一生的必修课,尤其在互联网时代,通过理性思考甄别过滤信息比之前任何时候都重要。此外,人的大脑是有连贯性的,已经习得过某项技能的人,再学另外一个技能的时候,学得会比上一次快一些,因为学习经验在起作用。而若是习得的基础知识是可积累、可扩展的,那么随后可能习得的技能可变现价值就会越来越高。通过数据分析进行决策就是一门可扩展性极高的技能,几乎可以扩展到这个数据时代的方方面面,而且随着社会的数据化趋势,这种可扩展性产生的“复利效应”将越来越大 —— 有着可怕的潜力。

  3. 数据科学是美的,美只有爱知道,所以热爱是选择这个行业的主要理由。不知道从什么时候开始,中国互联网上开始流传一句话:生活不止眼前的苟且,还有诗和远方。其实问题不在于缺少诗和远方,而在于你以为眼前的是苟且。如果你热爱自己当前所做的事情,那就是诗,就是远方。如果你不热爱自己所做的事情,在你找到自己真正热爱的事情之前,到哪里都是苟且。我希望阅读这本书的所有人都能够在数据分析中找到乐趣。归根结底,快乐并不是什么深奥的事情,无非是猫吃鱼,狗吃肉,奥特曼打小怪兽。

最后,感谢父母的爱和支持,感谢你们帮助我找到自己热爱的东西。感谢Scott Iverson,他是我在市场营销领域的导师,没有他,我无法将数据科学很好的应用于市场营销。感谢王正林以及所有为本书出版做出努力的人,没有你们就没有本书的问世。再次感谢你选择本书!