推荐序2

伴随着计算机硬件,数据获取和存储技术,分布式算法的飞速发展, 以及海量数据的积累,数据科学成为近几年来飞速发展的学科。但确切的说,数据科学还不是一门定义完善的学科。直到最近两年,大学里才慢慢开始建立数据科学相关的项目和学位。林荟博士的著作及时的填补了“如何成为成功的数据科学家”领域的空白。由于数据科学家的就业市场非常火热,很多领域的人才都想通过提升自身技术水平和经验成为真正的数据科学家。但正如林博士在书中指出的数据科学家=数据+科学+艺术家,想成为成功的数据科学家,各个领域的人才需要通过大量的学习和实践来弥补自身的欠缺。比如传统的统计学家和计量经济师需要熟悉编程,数据库操作和大数据分布式计算架构。对于刚刚毕业的理工科硕士和博士,积累利用真实数据解决实际问题的经验,提高高效的书面和口头表达能力,提升团队协作能力和自身的影响力是至关重要的。

林博士的著作首先系统的阐述了什么是数据科学以及成为成功数据科学家的必要条件。然后通过具体的数据和例子来引导读者一步步的理解和学习如何获取这些必要的条件成为真正的数据科学家。本书中各个章节的数据和具体操作都由开源系统的R语言来实现。读者可以下载所有的数据和代码,通过自己运行这些代码来加深对每个章节知识的理解,并且可以很快灵活的学以致用来解决学习和工作中遇到的数据科学相关的项目。对数据科学家而言,很大一部分精力是要花在数据的理解,整合和预处理上面。林博士通过自己在数据科学领域多年的经验来仔细的讲解了如何理解和预处理数据,这是本书的亮点之一。没有很好的理解数据,没有透彻的了解具体要解决的问题,就不可能找到好的解决方法。接着林博士用生动的语言的诙谐的例子介绍了在数据科学中常见的模型和方法。读者可以通过相关例子和代码来高效的理解这些模型和方法,并可以快速学以致用。虽然几乎所有的算法都有相应的程序包来实现,但作为成功的数据科学家,理解模型的理论背景和基础是必须的。因为只有理解了这些程序包的理论基础,才能有效的对不同数据不同问题来选择解决的方法并且设置合理的参数。本书对常用模型和方向进行了介绍和引申,可以帮助读者了解各个模型和方法背后的理论。简言之,本书系统的阐述了如何成为成功的数据科学家,读者可以通过本书的数据和代码,高效的学习并能很快的应用到实际项目中去。

伴随着大数据应用从互联网科技公司普及到传统商业领域诸如零售,制造,交通,电力和能源,航空航天,金融,医疗保健,以及大数据在各级政府部门政策制定和实施中的应用,数据科学家的需求还会逐年增高。尤其是大数据在新兴领域如工业互联网,物联网,智能家居和传感器网络的重要应用,很多相应的数据科学家的职位也会有新的需求。比如在制造业工业物联网领域的数据科学家岗位,除了上述提到的知识和经验,通常还会要求对制造业背后的物理和工程原理有所了解。具备了相应工业的基础知识和原理,数据科学家才能更好的理解数据并建立有效的模型和应用。这也对各理工科背景的人才敞开了数据科学的大门。同时通过大量用户数据的积累,数据科学家也对人文学科的人才敞开了大门。数据科学是一个飞速发展的学科,它通过数据和模型来影响各个学科和领域从而产生价值。数据科学家使得采集的数据有了真正的用武之地。对数据科学感兴趣的人才们,请从本书开始,不断提升自己的技术和经验,成为真正的成功数据科学家,为各行各业带来颠覆性的创新吧!

李明写于默瑟岛●西雅图 二零一七月年四月

序言作者简介:李明博士,毕业于爱荷华州立大学(Iowa State University )拥有物理和统计背景。曾任通用电气全球研发中心(GE Global Research Center)统计方向负责人(Statistical Leader),沃尔玛技术部(Walmart Technology)数据科学家(Data Scientist)。现任美国亚马逊(Amazon)资深数据科学家 (Senior Data Scientist)。李博士还担任美国统计学会(American Statistical Association)质量和生产力分会(Quality and Productivity Section)2017年度主席,以及统计在物理和工程应用年度奖评选委员会主席(SPES Award,one of American Statistical Association annual awards)。李博士的职业生涯中曾涉及金融,零售,制造,电力和能源,交通,医疗保健,和航空航头 等多个产业及相关跨产业领域。